在mac终端中使用Python 2.7.3进行Web爬网的代码？

Question

在编码方面，我是一名社会科学家和一个完整的新手/菜鸟。 我已经搜索了其他问题/教程，但我无法获得如何抓取专门针对评论部分的新闻网站的要点。 理想情况下，我想告诉python抓取一些页面并将所有注释作为.txt文件返回。 我试过了

from bs4 import BeautifulSoup
import urllib2
url="http://www.xxxxxx.com"

在我得到一条错误消息说bs4不是模块之前，我就可以走了。 我很感激你对此有任何帮助，如果你决定回复，请为我DumbB IT DOWN！

我可以在终端上运行wget并从网站上获取各种文本，这真是棒极了如果我真的可以弄清楚如何将单个输出的html文件保存到一个大的.txt文件中。 我会回答这两个问题。

Answer 1

尝试Scrapy 。 它是一个快速的高级屏幕抓取和网络爬行框架，用于抓取网站并从其页面中提取结构化数据。 它可用于各种用途，从数据挖掘到监控和自动化测试。

Answer 2

您很可能会遇到这种情况，但在某些情况下，如果该网站使用第三方服务进行评论，例如Disqus，您会发现您无法以这种方式提取评论。 只是一个抬头。

我以前走过这条路线，不得不将脚本定制到特定网站的布局/设计/等。

如果你不介意使用Python的字符串处理函数进行后处理，我发现libcurl非常方便。

如果你不需要纯粹用Python实现它，你可以使用wget的递归镜像选项来处理内容提取，然后编写你的python代码来解析下载的文件。

Answer 3

我也会在这里加两分钱。

要检查的第一件事是你安装了美丽的汤，它生活在可以找到的地方。 这里可能出现各种各样的问题。

我的经历与您的经历相似：我在网络创业公司工作，我们有很多用户注册，但没有给我们提供有关他们工作的信息（这对我们来说非常重要）。 所以我的想法是在他们的电子邮件地址中从域中抓取主页和“关于我们”页面，并尝试围绕我捕获的数据放置学习算法来预测他们的工作。 每个域的结果都存储为文本文件。

不幸的是（对你...抱歉），我最终得到的代码有点复杂。 问题是，当你进行刮擦时，你最终会得到很多垃圾，你必须将其过滤掉。 你最终会遇到编码问题，并且（假设你想在这里学习一些东西）你将不得不摆脱低价值的词。 总代码约为1000行，如果您有兴趣，我会发布一些可能对您有帮助的重要内容。

在mac终端中使用Python 2.7.3进行Web爬网的代码？

问题描述

3 个解决方案

解决方案1
2 2013-03-28 21:15:14

解决方案2
0 2013-03-28 21:44:11

解决方案3
0 2013-03-28 22:15:17

在mac终端中使用Python 2.7.3进行Web爬网的代码？

问题描述

3 个解决方案

解决方案1 2 2013-03-28 21:15:14

解决方案2 0 2013-03-28 21:44:11

解决方案3 0 2013-03-28 22:15:17

解决方案1
2 2013-03-28 21:15:14

解决方案2
0 2013-03-28 21:44:11

解决方案3
0 2013-03-28 22:15:17