如何使用python中的漂亮汤从html页面获取特定单词

Question

我必须从HTML页面中提取特定的单词，并计算单词重复的次数。 如何在python中使用漂亮的汤来做到这一点？ 如何传递汤中的网址，然后计算字数？

到目前为止，这是我的代码。 我不知道下一步该怎么做。

import bs4 as bs
import urllib.request

source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()

soup = bs.BeautifulSoup(source,'lxml')

for paragraph in soup.find_all('p'):
    print(paragraph.string)
    print(str(paragraph.text))

Answer 1

您可以使用来获取页面中的所有文本

soup.get_text()

将其设置为变量后，您可以使用.count（）方法查找某个字符串出现在HTML页面中的数量。 例如

text = soup.get_text()
print (text.count('word'))

为了确保您不会在单词中得到单词，可以用空格将所有内容分开，然后在列表的每个索引中查找它们。 例如，“房屋”在“房屋”内部将由此固定。

如何使用python中的漂亮汤从html页面获取特定单词

问题描述

1 个解决方案

解决方案1
0 2017-11-05 11:13:44

如何使用python中的漂亮汤从html页面获取特定单词

问题描述

1 个解决方案

解决方案1 0 2017-11-05 11:13:44

解决方案1
0 2017-11-05 11:13:44