[英]How to get a specific word from html page using beautiful soup in python
我必須從HTML頁面中提取特定的單詞,並計算單詞重復的次數。 如何在python中使用漂亮的湯來做到這一點? 如何傳遞湯中的網址,然后計算字數?
到目前為止,這是我的代碼。 我不知道下一步該怎么做。
import bs4 as bs
import urllib.request
source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()
soup = bs.BeautifulSoup(source,'lxml')
for paragraph in soup.find_all('p'):
print(paragraph.string)
print(str(paragraph.text))
您可以使用來獲取頁面中的所有文本
soup.get_text()
將其設置為變量后,您可以使用.count()方法查找某個字符串出現在HTML頁面中的數量。 例如
text = soup.get_text()
print (text.count('word'))
為了確保您不會在單詞中得到單詞,可以用空格將所有內容分開,然后在列表的每個索引中查找它們。 例如,“房屋”在“房屋”內部將由此固定。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.