如何使用python中的漂亮湯從html頁面獲取特定單詞

Question

我必須從HTML頁面中提取特定的單詞，並計算單詞重復的次數。 如何在python中使用漂亮的湯來做到這一點？ 如何傳遞湯中的網址，然后計算字數？

到目前為止，這是我的代碼。 我不知道下一步該怎么做。

import bs4 as bs
import urllib.request

source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()

soup = bs.BeautifulSoup(source,'lxml')

for paragraph in soup.find_all('p'):
    print(paragraph.string)
    print(str(paragraph.text))

Answer 1

您可以使用來獲取頁面中的所有文本

soup.get_text()

將其設置為變量后，您可以使用.count（）方法查找某個字符串出現在HTML頁面中的數量。 例如

text = soup.get_text()
print (text.count('word'))

為了確保您不會在單詞中得到單詞，可以用空格將所有內容分開，然后在列表的每個索引中查找它們。 例如，“房屋”在“房屋”內部將由此固定。

如何使用python中的漂亮湯從html頁面獲取特定單詞

問題描述

1 個解決方案

解決方案1
0 2017-11-05 11:13:44

如何使用python中的漂亮湯從html頁面獲取特定單詞

問題描述

1 個解決方案

解決方案1 0 2017-11-05 11:13:44

解決方案1
0 2017-11-05 11:13:44