如何通过使用python 3从“ a”中的href获得类名的链接

Question

我试图从google map中获取链接，其元素是：

<div class="something1">
  <span class="something2"></span>
  <a data-track-id="Google Map" href="https://www.google.com/maps/dir//11111/@22222" target="_blank" class="something3">Google Map</a>
</div>

我只想得到https://www.google.com/maps/dir//11111/@22222

我的代码是

 gpslocation = []
 for gps in (secondpage_parser.find("a", {"data-track-id":"Google Map"})):
     gpslocation.append(gps.attrs["href"])

我正在使用2个网址页面（主页和第二页）来抓取位于第二页中的博客网站。 其他信息（例如Story-Title或Author Name get_text()可以作为文本显示，因此我可以使用get_text() 。

但是在这种情况下，我无法在href之后获得链接。 请帮忙。

PS。 在我只想要链接（11111和22222）中的纬度和经度的情况下，有没有办法使用str.rplit ？

非常感谢

Answer 1

您可以使用以下内容：

secondpage_parser.find("a", {"data-track-id":"Google Map"})['href']

Answer 2

使用soup.find(...)['href']查找具有href的所有链接，或使用soup.find_all('a' ... , href=True)查找所有链接
是的，您可以使用split来获得经纬度
- 首先拆分//然后获取最新的[-1]
- 然后在/@上分割以同时获得经度和纬度

from bs4 import BeautifulSoup

data = """
<div class="something1">
  <span class="something2"></span>
  <a data-track-id="Google Map" href="https://www.google.com/maps/dir//11111/@22222" target="_blank" class="something3">Google Map</a>
</div>
"""

soup = BeautifulSoup(data, "html.parser")
for gps in soup.find_all('a', href=True):
    href = gps['href']
    print(href)
    lati, longi = href.split("//")[-1].split('/@')
    print(lati)
    print(longi)

如何通过使用python 3从“ a”中的href获得类名的链接

问题描述

2 个解决方案

解决方案1
0 2018-09-06 11:23:55

解决方案2
0 2018-09-06 11:35:01

如何通过使用python 3从“ a”中的href获得类名的链接

问题描述

2 个解决方案

解决方案1 0 2018-09-06 11:23:55

解决方案2 0 2018-09-06 11:35:01

解决方案1
0 2018-09-06 11:23:55

解决方案2
0 2018-09-06 11:35:01