Python：從html文件獲取和解析文本

Question

我正在嘗試有關頁面排名的項目。

我想制作一個像這樣的索引（字典）：
file1.html-> [[貓，吃，食物，飲料，牛奶]，[file2.html，file3.html]]
file2.html-> [[狗，吠叫，跑開，離開]，[file1.html，file4.html]]

提取鏈接很容易-尋找錨標記。

我的問題是-如何獲取文本？ html文件中的文本未包含在<p>之類的任何標記內

預先感謝所有幫助

Answer 1

使用HTML解析器-類似於BeautifulSoup 。

Answer 2

如果文本未包含在標簽中，是否為HTML？
正如Amber所說，使用諸如BeautifulSoup之類的HTML解析器，您可以輕松完成此任務。

下面的示例演示了一種用於返回標簽內文本的簡單方法。
此方法適用於任何標簽AFAIK。

>>> from BeautifulSoup import BeautifulSoup as bs
>>> html = '''
... <div><a href="/link1">link1 contents</a></div>
... <div><a href="/link2">link2 contents</a></div>
... '''
>>> soup = bs(html)
>>> for anchor_tag in soup.findAll('a'):
...   print anchor_tag.contents[0]
... 
link1 contents
link2 contents

除此之外，我可以想象您想要一本字典，其中包含某個術語在某個HTML文檔中出現的次數。 defaultdict對這種事情有好處：

>>> from collections import defaultdict
>>> d = defaultdict(int)
>>> for anchor_tag in soup.findAll('a'):
...   d[anchor_tag.contents[0]] += 1
... 
>>> d
defaultdict(<type 'int'>, {u'link1 contents': 1, u'link2 contents': 1})

希望這會給您一些想法。 如果遇到其他問題，請回來並打開另一個問題。

Python：從html文件獲取和解析文本

問題描述

2 個解決方案

解決方案1
1 2010-10-16 21:09:12

解決方案2
0 已采納 2010-10-16 22:31:21

Python：從html文件獲取和解析文本

問題描述

2 個解決方案

解決方案1 1 2010-10-16 21:09:12

解決方案2 0 已采納 2010-10-16 22:31:21

解決方案1
1 2010-10-16 21:09:12

解決方案2
0 已采納 2010-10-16 22:31:21