[英]How to get a specific word from html page using beautiful soup in python
我必须从HTML页面中提取特定的单词,并计算单词重复的次数。 如何在python中使用漂亮的汤来做到这一点? 如何传递汤中的网址,然后计算字数?
到目前为止,这是我的代码。 我不知道下一步该怎么做。
import bs4 as bs
import urllib.request
source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()
soup = bs.BeautifulSoup(source,'lxml')
for paragraph in soup.find_all('p'):
print(paragraph.string)
print(str(paragraph.text))
您可以使用来获取页面中的所有文本
soup.get_text()
将其设置为变量后,您可以使用.count()方法查找某个字符串出现在HTML页面中的数量。 例如
text = soup.get_text()
print (text.count('word'))
为了确保您不会在单词中得到单词,可以用空格将所有内容分开,然后在列表的每个索引中查找它们。 例如,“房屋”在“房屋”内部将由此固定。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.