如何使用Python從html標記提取數據？

Question

我想提取在線詞典中單詞的翻譯。 例如，“ car”的html代碼：

<ol class="sense_list level_1">
     <li class="sense_list_item level_1" value="1"><span class="def">any vehicle on wheels</span></li>

如何使用Beautifulsoup或任何其他模塊在Python中提取“車輪上的任何車輛”？

Answer 1

有多種方法可以達到所需的元素。

可能最簡單的方法是按class找到它：

soup.find('span', class_='def').text

或者，使用CSS selector ：

soup.select('span.def')[0].text

或者，另外檢查父母：

soup.select('ol.level_1 > li.level_1 > span.def')[0].text

要么：

soup.select('ol.level_1 > li[value=1] > span.def')[0].text

Answer 2

我通過beautifulsoup解決了這個問題：

soup = bs4.BeautifulSoup(html)
q1=soup.find('li', class_="sense_list_item level_1",value='1').text

Answer 3

假設這是給定的唯一HTML代碼，則可以使用NLTK 。

import nltk 

#load html chunk into variable htmlstring#
extract = nltk.clean_html(htmlstring)
print(extract)