根据关键字搜索列表到 append 特定列表内容

Question

语境

我有一个从这个网站上抓取的链接列表： https://www.ons.gov.uk/economy/economicoutputandproductivity/output/datasets/economicactivityfasterindicatorsuk

此链接列表如下所示；

['https://twitter.com/ONS',
 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fdecember2019/dataset1.xlsx',
 'https://www.facebook.com/ONS',
 'https://www.ons.gov.uk/peoplepopulationandcommunity/leisureandtourism',
 'https://www.ons.gov.uk/businessindustryandtrade/manufacturingandproductionindustry',
 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2ffebruary2020roadsdata/roadstables.xlsx',
 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fjuly2019/economicactivityfasterindicatorsukjuly2019dataset.xlsx',
 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fjanuary2020roadsdata/roadstables.xlsx'...

我现在想对他们使用氦/硒到 go 并将它们打印出来。 只有链接列表包含我不需要的链接和我需要下载的 excel 文档的组合。 我希望能够 append 只是包含 xlsx 的链接。

我尝试了这个解决方案，但没有奏效。 我也尝试了.remove function 但这更耗时。 我还尝试通过切片来整理链接列表，但这又很耗时。

问题

有没有更简单的方法可以在指向它们的链接列表中找到一个字符串，允许我将 append 转到一个列表并通过 selenium 循环遍历它们（我可以做后者，只需要附加帮助）。

Answer 1

使用列表理解。

linklist = ['https://twitter.com/ONS',
 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fdecember2019/dataset1.xlsx',
 'https://www.facebook.com/ONS',
 'https://www.ons.gov.uk/peoplepopulationandcommunity/leisureandtourism',
 'https://www.ons.gov.uk/businessindustryandtrade/manufacturingandproductionindustry',
 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2ffebruary2020roadsdata/roadstables.xlsx',
 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fjuly2019/economicactivityfasterindicatorsukjuly2019dataset.xlsx',
 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fjanuary2020roadsdata/roadstables.xlsx']

relevant_links = [link for link in linklist if ".xlsx" in link]

将 output

['https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fdecember2019/dataset1.xlsx', 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2ffebruary2020roadsdata/roadstables.xlsx', 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fjuly2019/economicactivityfasterindicatorsukjuly2019dataset.xlsx', 'https://www.ons.gov.uk/file?uri=%2feconomy%2feconomicoutputandproductivity%2foutput%2fdatasets%2feconomicactivityfasterindicatorsuk%2fjanuary2020roadsdata/roadstables.xlsx']

Answer 2

检查字符串终止：

new_list = [link for link in original_list if link.endswith(".xlsx")]

然后您可以打开new_list中的每个链接。

根据关键字搜索列表到 append 特定列表内容

问题描述

2 个解决方案

解决方案1
1 已采纳 2021-01-18 01:43:47

解决方案2
1 2021-01-18 01:45:13

根据关键字搜索列表到 append 特定列表内容

问题描述

2 个解决方案

解决方案1 1 已采纳 2021-01-18 01:43:47

解决方案2 1 2021-01-18 01:45:13

解决方案1
1 已采纳 2021-01-18 01:43:47

解决方案2
1 2021-01-18 01:45:13