簡體   English   中英

我怎樣才能抓取這個頁面?

[英]How can I scrape this page?

我正在抓取頁面,但在嘗試抓取WANTED-DATA出現錯誤

<td class="class-1" data-reactid="41"><a class="class-2" data-reactid="42" data-symbol="MORE-DATA" href="/quote/HKxlkPH4-x" title="WANTED-DATA">text</a></td>

我可以通過執行以下操作來提取更接近的text

getText.find('a', attrs={'class':'class-2'}).text
# output: 'text'

我怎樣才能抓取'WANTED-DATA'

來自docs 您可以編寫tag[attr_name]來獲取單個屬性,而tag.attrs來獲取所有帶有值的屬性的字典。

soup.find('a', attrs={'class':'class-2'})['title']

試試這個:

links = soup.findAll('a', attrs={'class':'class-2'}).text 
for link in links:     
    title = link.get('title')

你也可以這樣做:

html = """<td class="class-1" data-reactid="41"><a class="class-2" data-reactid="42" data-symbol="MORE-DATA" href="/quote/HKxlkPH4-x" title="WANTED-DATA">text</a></td>"""
soup = BeautifulSoup(html)
## adding title=True below prevent any error in case you have links without the 'title attribute'
titles = [x.get('title') for x in soup.find_all('a',title=True)]
print(titles)

輸出:

['WANTED-DATA']

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM