标签[common-crawl] - 堆栈内存溢出

如何使用 Amazon Athena 访问 Columnar URL INDEX - How to access Columnar URL INDEX using Amazon Athena

我是 AWS 的新手，我正在按照本教程访问 Common Crawl 中的列数据集。我执行了这个查询：而且我不断收到此错误：打开错误 Hive split s3://commoncrawl/cc-index/table/cc-main/warc/crawl=CC-MAIN-2018-05/s ...

提取单个 Common Crawl WARC 的有效载荷 - Extracting the payload of a single Common Crawl WARC

我可以在给定的公共爬网索引中查询特定基数 url 的所有出现，将它们全部保存到一个文件中，并使用下面的代码获取特定文章 (test_article_num)。但是，我还没有找到从特定爬网数据（输出中的“文件名”）提取该文章的原始 html 的方法，即使我知道我想要的数据的偏移量和长度。我觉得在 ...

普通抓取请求返回 403 WARC - Common Crawl Request returns 403 WARC

我正在尝试从公共爬网档案中爬取一些 WARC 文件，但我似乎没有成功地向服务器发出请求。下面提供了一个最小的 python 示例来复制错误。我尝试在请求 header 中添加 UserAgent，但确实有帮助。关于如何进行的任何想法？ ...

普通爬取请求node-fetch，axios或者got - Common crawl request with node-fetch, axios or got

我正在尝试将我的 C# 公共爬网代码移植到 Node.js，并在从公共爬网 S3 存档获取单个页面 HTML 时，所有 HTTP 库（节点获取，axios 的 got）都出现错误。状态为200 ，但 package 中没有一个能够读取正文 gzip 正文。虽然我的 C# 代码可以正常读取正文 ...

Common Crawl data 按关键字搜索所有页面 - Common Crawl data search all pages by keyword

我想知道是否可以在 python 中使用常见的爬网 api 查找关键字并检索包含该关键字的页面。例如，如果我查找“堆栈溢出”，它将在 HTML 文件中找到关键字“堆栈溢出”的页面。我查看了 api，但我只能进行 URL 查找 - 而不是关键字。感谢您提前回复！ ...

如何使用 HTTP 获取 WARC 文件列表，用于 Common Crawl News Dataset？ - How to get a listing of WARC files using HTTP for Common Crawl News Dataset?

我可以通过以下方式获得 Common Crawl 的列表： https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz 如何使用 Common Crawl News Dataset 做到这一点？我尝试 ...

通过 Common Crawl 获取 URL 的首次爬网日期？ - Getting date of first crawl of URL by Common Crawl?

在 Common Crawl 中，可以多次收获相同的 URL。例如，Reddit 博客文章可以在创建时被抓取，然后在添加后续评论时被抓取。有没有办法找到给定的 URL 何时被 Common Crawl 首次抓取？ ...

如何从 Common Crawl 获取网页文本？ - How to get webpage text from Common Crawl?

使用普通爬网，有没有一种方法可以从特定域（例如，wisc.edu）的所有页面下载原始文本？我只对用于 NLP 目的的文本感兴趣，例如主题建模。 ...

从 python 中的 s3 流式传输 gzipped 文件 - Streaming in a gzipped file from s3 in python

嗨，我正在开发一个有趣的项目，使用常见的爬网数据我有一个从这里开始的最新爬网 warc 文件路径的子集 so basically I have a url like https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2020-45/seg ...

如何从 CommonCrawl 检索页面的 HTML？ - How to retrieve the HTML of a page from CommonCrawl?

假设我有： CC*.warc 文件的链接（以及文件本身，如果有帮助的话）；抵消; 和长度如何获取该页面的 HTML 内容？感谢您的时间和关注。 ...

为什么我的 Apache Nutch warc 和 commoncrawldump 在爬行后失败？ - Why does my Apache Nutch warc and commoncrawldump fail after crawl?

我已经使用 Nutch 成功抓取了一个网站，现在我想根据结果创建一个 warc。但是，同时运行 warc 和 commoncrawldump 命令会失败。此外，运行bin/nutch dump -segement ....在同一段文件夹上成功运行。我正在使用 nutch v-1.17 并运行 ...

Common Crawl S3 存储桶所需的 AWS 凭证 - AWS credentials required for Common Crawl S3 buckets

我正在尝试获取 Common Crawl 新闻 S3 存储桶，但我不断收到“致命错误：无法找到凭据”消息。有关如何解决此问题的任何建议？据我所知，Common Crawl 甚至不需要凭据？ ...

newsplease commoncrawl.py 文件中的异常 - exception in newsplease commoncrawl.py file

我正在使用从https://github.com/fhamborg/news-please克隆的 newsplease 库。我想使用 newsplease 从 commoncrawl 新闻数据集中获取新闻文章。我正在按照此处的说明运行 commoncrawl.py 文件。我使用了以下命令- 在 ...

解压缩 c# 中的 gz 文件：System.IO.InvalidDataException：“存档条目是使用不受支持的压缩方法压缩的。” - Unzipping a gz file in c# : System.IO.InvalidDataException: 'The archive entry was compressed using an unsupported compression method.'

我已按照 Microsoft 推荐的方式解压缩 a.gz 文件： https://docs.microsoft.com/en-us/dotnet/api/system.io.compression.gzipstream?view=netcore-3.1 我正在尝试从 CommonCrawl 下载 ...

通过http将AWS Common Crawl的小样本下载到本地计算机 - Download small sample of AWS Common Crawl to local machine via http

我感兴趣的是下载AWS Common Crawl的一小部分原始信息（十个meg顶部）作为信息检索测试的语料库。 “通用抓取”页面建议我需要一个S3帐户和/或Java程序才能访问它，然后我要筛选的是100 Gb数据，而我所需要的只是几十兆。这里有一些代码，但是它需要一个S3帐户和访 ...

commoncrawl是否仅包含良性URL？如果是，他们如何避免索引恶意URL？ - Does commoncrawl contain only benign URLs? If yes, how they avoid indexing malicious URLs?

我们想知道commoncrawl数据库是否可以用作URL分类的合法数据集。 ...

可以从Common Crawler API的web版本获取标题吗？ - Is it possible to get titles from the webversion of Common Crawler API?

我正在尝试从网页获取URL，标题和语言。幸运的是，存在CC API https://github.com/webrecorder/pywb/wiki/CDX-Server-API#api-reference 。但是可悲的是，我没有注意到获得冠军头衔的方法。目前，我以（例如） ht ...

如何通过http请求将S3中的多个压缩文件读取到单个RDD中？ - How to read multiple gzipped files from S3 into a single RDD with http request?

我必须下载存储在S3上的许多压缩文件，如下所示：要下载它们，您必须添加前缀https://commoncrawl.s3.amazonaws.com/ 我必须下载并解压缩文件，然后将内容组装为单个RDD。类似于以下内容：我想用spark编写此代码： ...

Mrjob步骤失败。如何调试？ - Mrjob Step is failing. How do debug?

我正在尝试在EMR群集中运行示例mrjob 。我已经在AWS仪表板中手动创建了EMR集群并按如下方式启动了mrjob 作业失败，并显示以下错误消息如何查看失败消息？ ...

mrjob返回了非零退出状态256 - mrjob returned non-zero exit status 256

我是mrjob ，我正尝试使用python的mrjob包运行Map mrjob作业。但是，我遇到此错误：我尝试使用python ./word_count.py input/test-1.warc > output在本地运行它，并且成功。我正在使用 python ...