我怎樣才能抓取這個頁面？

Question

我正在抓取頁面，但在嘗試抓取WANTED-DATA出現錯誤

<td class="class-1" data-reactid="41"><a class="class-2" data-reactid="42" data-symbol="MORE-DATA" href="/quote/HKxlkPH4-x" title="WANTED-DATA">text</a></td>

我可以通過執行以下操作來提取更接近的text ：

getText.find('a', attrs={'class':'class-2'}).text
# output: 'text'

我怎樣才能抓取'WANTED-DATA' ？

Answer 1

來自docs 。 您可以編寫tag[attr_name]來獲取單個屬性，而tag.attrs來獲取所有帶有值的屬性的字典。

soup.find('a', attrs={'class':'class-2'})['title']

Answer 2

試試這個：

links = soup.findAll('a', attrs={'class':'class-2'}).text 
for link in links:     
    title = link.get('title')

Answer 3

你也可以這樣做：

html = """<td class="class-1" data-reactid="41"><a class="class-2" data-reactid="42" data-symbol="MORE-DATA" href="/quote/HKxlkPH4-x" title="WANTED-DATA">text</a></td>"""
soup = BeautifulSoup(html)
## adding title=True below prevent any error in case you have links without the 'title attribute'
titles = [x.get('title') for x in soup.find_all('a',title=True)]
print(titles)

輸出：

['WANTED-DATA']

我怎樣才能抓取這個頁面？

問題描述

3 個解決方案

解決方案1
1 2020-11-17 08:05:27

解決方案2
1 已采納 2020-11-17 08:13:53

解決方案3
0 2020-11-17 14:31:38

我怎樣才能抓取這個頁面？

問題描述

3 個解決方案

解決方案1 1 2020-11-17 08:05:27

解決方案2 1 已采納 2020-11-17 08:13:53

解決方案3 0 2020-11-17 14:31:38

解決方案1
1 2020-11-17 08:05:27

解決方案2
1 已采納 2020-11-17 08:13:53

解決方案3
0 2020-11-17 14:31:38