繁体 English 中英

使用Python 3.x从网页中提取文本

[英]Extract text from Webpages with Python 3.x

原文 2011-12-13 19:53:27 8 4 python/ python-3.x/ beautifulsoup

我正在使用Python 3.x

我想从几个网页中提取文本。 有什么好的图书馆可以让我做到这一点？

谢谢，巴里。

4 个解决方案

http://www.crummy.com/software/BeautifulSoup/

以及帮助您入门的文档

http://www.crummy.com/software/BeautifulSoup/documentation.html

mechanize是一个很好的库，但是不幸的是它还没有为python 3准备好，但是您可以看看lxml.html

我建议您使用Beautiful Soup ，然后只需要通过返回的结构来查找类似于电子邮件地址的内容即可。

您也可以为此使用urllib2，但是Beautiful Soup会为您解决很多语法问题。

您没有说要对提取的文本做什么，这对您为了得到它而愿意付出的努力有很大的不同。

如果你想获得一个网页减去所有网站相关的克鲁夫特（也是有意义的任务）的正文，看看boilerpipe 。 它是用Java编写的，但是在从随机网页中获取必要的文本方面做得非常好。

在接下来的几周中，我的兴趣之一是重新创建Python样板程序的核心逻辑。 我们需要它为项目提供的功能，但不想拖走10吨重的JVM。 我敢肯定，一旦它相当稳定，我们就会发布它。

如何从 python 3.x 中的文本中提取 XML 标签？

[英]How to extract XML tags from text in python 3.x?

如何从双引号中提取文本并将其添加到字符串？ python 3.x

[英]How do i extract text from double quotes and add it to string ? python 3.x

在python 3.x中提取文本文件的特定部分

[英]Extract specific portion of a text file in python 3.x

如何使用Python 3.x从字符串中提取日期

[英]How to extract date from string using Python 3.x

在Windows计算机上使用python 3.x爬取JS驱动的网页

[英]Scraping JS-fueled webpages with python 3.x on windows computer

从Python 3.x中的列表中提取IP和端口

[英]Extract IPs and Ports from a list in Python 3.x

使用python 3.x从文本文件中找到匹配的关键字

[英]Finding a matching keyword from a text file using python 3.x

正则表达式在python 3.x中提取日期

[英]Regex to extract Date in python 3.x

使用 python 3.x 提取 URL 的一部分

[英]Extract part of the URL using python 3.x

使用 Python 从多个网页中提取日期

[英]Extract date from multiple webpages with Python

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何从 python 3.x 中的文本中提取 XML 标签？如何从双引号中提取文本并将其添加到字符串？ python 3.x 在python 3.x中提取文本文件的特定部分如何使用Python 3.x从字符串中提取日期在Windows计算机上使用python 3.x爬取JS驱动的网页从Python 3.x中的列表中提取IP和端口使用python 3.x从文本文件中找到匹配的关键字正则表达式在python 3.x中提取日期使用 python 3.x 提取 URL 的一部分使用 Python 从多个网页中提取日期

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM