[英]Extract text from Webpages with Python 3.x
我正在使用Python 3.x
我想从几个网页中提取文本。 有什么好的图书馆可以让我做到这一点?
谢谢,巴里。
我建议您使用Beautiful Soup ,然后只需要通过返回的结构来查找类似于电子邮件地址的内容即可。
您也可以为此使用urllib2,但是Beautiful Soup会为您解决很多语法问题。
您没有说要对提取的文本做什么,这对您为了得到它而愿意付出的努力有很大的不同。
如果你想获得一个网页减去所有网站相关的克鲁夫特(也是有意义的任务)的正文 ,看看boilerpipe 。 它是用Java编写的,但是在从随机网页中获取必要的文本方面做得非常好。
在接下来的几周中,我的兴趣之一是重新创建Python样板程序的核心逻辑。 我们需要它为项目提供的功能,但不想拖走10吨重的JVM。 我敢肯定,一旦它相当稳定,我们就会发布它。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.