繁体   English   中英

Python- <a>使用BeautifulSoup</a>从<a>选项卡</a>获取数据

[英]Python - Get data from <a> tab using BeautifulSoup

    <a href="/realDonaldTrump/status/868985285207629825" class="tweet-timestamp js-permalink js-nav js-tooltip" data-original-title="5:20 PM - 28 May 2017"></a>

url = "https://twitter.com/realDonaldTrump?
ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor"
r = requests.get(url)

soup = BeautifulSoup(r.content, "html.parser")

links = soup.find_all('a')
for link in soup.find_all('a'):
print(link.text, link.get('href'))

我在从html中检索“ href”标签时遇到了麻烦。 该代码可以检索所有其他“ href”,但我想要的是“ / realDonaldTrump / status / 868985285207629825”。 我也想检索“ data-original-title”标签。 有什么帮助或建议吗?

import requests
from bs4 import BeautifulSoup    
url = "https://twitter.com/realDonaldTrump?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor"
r = requests.get(url)

soup = BeautifulSoup(r.content, "html.parser")

links = soup.find_all('a', {'class':'tweet-timestamp js-permalink js-nav js-tooltip'})
for link in links:
    try:
        print(link['href'])
        if link['data-original-title']:
            print(link['data-original-title'])
    except:
        pass

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM