在 html 站点的 href 内提取 url

Question

我已经从 web 页面中提取了以下内容：

 <a class="Directory-listLink" data-ya-track="todirectory" href="united-states/in">Indiana</a>,
 <a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ia">Iowa</a>,
 <a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ks">Kansas</a>,
 <a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ky">Kentucky</a>,

我只想要每个提取的href="united-states/il"部分。 目前我正在尝试这样的事情：

for state in soup_state.find('a',href=True):
    print(state['href'])

我不断收到错误：

AttributeError：ResultSet object 没有属性“查找”。 您可能将项目列表视为单个项目。 当您打算调用 find() 时，您是否调用了 find_all()？

我希望它在 for 循环中运行，以便提取每个州的 url，但目前无法

Answer 1

我不确定您是如何到达soup_state的，但请尝试：

for state in soup_state:
     print(state['href'])

看看它是否能解决问题。

Answer 2

您可以使用正则表达式来查找这些内容。

import re

lines = ['<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/in">Indiana</a>',
         '<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ia">Iowa</a>',
         '<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ks">Kansas</a>',
         '<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ky">Kentucky</a>']

for l in lines:
    print(re.search('href="[^"]*"',l).group())

这将给出 output：

href="united-states/in"
href="united-states/ia"
href="united-states/ks"
href="united-states/ky"

在 html 站点的 href 内提取 url

问题描述

2 个解决方案

解决方案1
2 已采纳 2020-08-13 20:37:18

解决方案2
1 2020-08-13 20:41:46

在 html 站点的 href 内提取 url

问题描述

2 个解决方案

解决方案1 2 已采纳 2020-08-13 20:37:18

解决方案2 1 2020-08-13 20:41:46

解决方案1
2 已采纳 2020-08-13 20:37:18

解决方案2
1 2020-08-13 20:41:46