簡體   English   中英

如何使用python中的漂亮湯從html頁面獲取特定單詞

[英]How to get a specific word from html page using beautiful soup in python

我必須從HTML頁面中提取特定的單詞,並計算單詞重復的次數。 如何在python中使用漂亮的湯來做到這一點? 如何傳遞湯中的網址,然后計算字數?

到目前為止,這是我的代碼。 我不知道下一步該怎么做。

import bs4 as bs
import urllib.request

source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()

soup = bs.BeautifulSoup(source,'lxml')

for paragraph in soup.find_all('p'):
    print(paragraph.string)
    print(str(paragraph.text)) 

您可以使用來獲取頁面中的所有文本

soup.get_text()

將其設置為變量后,您可以使用.count()方法查找某個字符串出現在HTML頁面中的數量。 例如

text = soup.get_text()
print (text.count('word'))

為了確保您不會在單詞中得到單詞,可以用空格將所有內容分開,然后在列表的每個索引中查找它們。 例如,“房屋”在“房屋”內部將由此固定。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM