繁体   English   中英

在mac终端中使用Python 2.7.3进行Web爬网的代码?

[英]Code for web crawling with Python 2.7.3 in mac terminal?

在编码方面,我是一名社会科学家和一个完整的新手/菜鸟。 我已经搜索了其他问题/教程,但我无法获得如何抓取专门针对评论部分的新闻网站的要点。 理想情况下,我想告诉python抓取一些页面并将所有注释作为.txt文件返回。 我试过了

from bs4 import BeautifulSoup
import urllib2
url="http://www.xxxxxx.com"

在我得到一条错误消息说bs4不是模块之前,我就可以走了。 我很感激你对此有任何帮助,如果你决定回复,请为我DumbB IT DOWN!

我可以在终端上运行wget并从网站上获取各种文本,这真是棒极了如果我真的可以弄清楚如何将单个输出的html文件保存到一个大的.txt文件中。 我会回答这两个问题。

尝试Scrapy 它是一个快速的高级屏幕抓取和网络爬行框架,用于抓取网站并从其页面中提取结构化数据。 它可用于各种用途,从数据挖掘到监控和自动化测试。

您很可能会遇到这种情况,但在某些情况下,如果该网站使用第三方服务进行评论,例如Disqus,您会发现您无法以这种方式提取评论。 只是一个抬头。

我以前走过这条路线,不得不将脚本定制到特定网站的布局/设计/等。

如果你不介意使用Python的字符串处理函数进行后处理,我发现libcurl非常方便。

如果你不需要纯粹用Python实现它,你可以使用wget的递归镜像选项来处理内容提取,然后编写你的python代码来解析下载的文件。

我也会在这里加两分钱。

要检查的第一件事是你安装了美丽的汤,它生活在可以找到的地方。 这里可能出现各种各样的问题。

我的经历与您的经历相似:我在网络创业公司工作,我们有很多用户注册,但没有给我们提供有关他们工作的信息(这对我们来说非常重要)。 所以我的想法是在他们的电子邮件地址中从域中抓取主页和“关于我们”页面,并尝试围绕我捕获的数据放置学习算法来预测他们的工作。 每个域的结果都存储为文本文件。

不幸的是(对你...抱歉),我最终得到的代码有点复杂。 问题是,当你进行刮擦时,你最终会得到很多垃圾,你必须将其过滤掉。 你最终会遇到编码问题,并且(假设你想在这里学习一些东西)你将不得不摆脱低价值的词。 总代码约为1000行,如果您有兴趣,我会发布一些可能对您有帮助的重要内容。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM