繁体   English   中英

使用Python 3.x从网页中提取文本

[英]Extract text from Webpages with Python 3.x

我正在使用Python 3.x

我想从几个网页中提取文本。 有什么好的图书馆可以让我做到这一点?

谢谢,巴里。

mechanize是一个很好的库,但是不幸的是它还没有为python 3准备好,但是您可以看看lxml.html

我建议您使用Beautiful Soup ,然后只需要通过返回的结构来查找类似于电子邮件地址的内容即可。

您也可以为此使用urllib2,但是Beautiful Soup会为您解决很多语法问题。

您没有说要对提取的文本什么,这对您为了得到它而愿意付出的努力有很大的不同。

如果你想获得一个网页减去所有网站相关的克鲁夫特(也是有意义的任务)的正文 ,看看boilerpipe 它是用Java编写的,但是在从随机网页中获取必要的文本方面做得非常好。

在接下来的几周中,我的兴趣之一是重新创建Python样板程序的核心逻辑。 我们需要它为项目提供的功能,但不想拖走10吨重的JVM。 我敢肯定,一旦它相当稳定,我们就会发布它。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM