标签[warc] - 堆栈内存溢出

wget --warc-file 只获取主页和机器人页面？ - wget --warc-file gets only main page and robot pages?

我正在尝试在一个小的 WARC 文件上做一个小项目。我使用了这个命令：我第一次运行它时，一切都很顺利，价值超过 150 页，太棒了。现在我想从头开始重做，所以我删除了文件“course.warc.gz”；问题是，当我现在运行相同的命令时，我得到 3 个页面：请求的页面和要引导的两个机器人 ...

普通抓取请求返回 403 WARC - Common Crawl Request returns 403 WARC

我正在尝试从公共爬网档案中爬取一些 WARC 文件，但我似乎没有成功地向服务器发出请求。下面提供了一个最小的 python 示例来复制错误。我尝试在请求 header 中添加 UserAgent，但确实有帮助。关于如何进行的任何想法？ ...

优化 WARC 生成以节省空间和时间 - Optimize WARC generation in order to save space and time

我正在尝试做一个 WARC 文件，其中有一个非常大的几个域的链接列表：我在一个命令中执行此操作，因为我认为生成一个单一的 warc 压缩比为每个域执行不同的 warc 更好。将所有内容都集中在一个 warc 中的另一点是能够跟踪从一个站点到另一个站点的链接。但是这项工作花费了 18 天并生成了 ...

Pytest 与warcio集成 - Pytest integration with warcio

核心问题是在运行 pytest 时， warcio.capture_http无法捕获任何响应和请求。如果上面的代码片段执行为python test_random.py ，那么 WARC output 符合预期；文件大小大于 0 字节。但是，如果代码作为pytest test_random.py ...

如何解压缩 warc.zst 文件？ - How to decompress a warc.zst file?

我正在尝试解压缩从这里下载的 WARC ZST 文件： https : //archive.org/details/archiveteam_yahooanswers_20210422220546_c4fac540 我尝试了命令zstd -d yahooanswers_20210422220546_ ...

WARC 文件中的记录数 - Number of records in WARC file

我目前正在从 CommonCrawl 语料库中解析 WARC 文件，并且我想预先知道有多少条记录，而无需遍历所有 WARC 记录。 WARC 1.1 标准是否定义了此类信息？ ...

使用 ReadFile 时，一半的读取缓冲区损坏 - Half of read buffer is corrupt when using ReadFile

与 ReadFile 一起使用的一半缓冲区已损坏。无论缓冲区的大小如何，其中一半都具有相同的损坏字符。我已经寻找任何可能导致读取提前停止的东西，等等。如果我增加缓冲区的大小，我会看到更多的文件，所以它不会在文件的特定部分失败。 Visual Studio 2019。Windows 10。调试 ...

Python：如何拆分WARC文件？ - Python: How to split WARC file?

我的目标是将 CommonCrawl 中的 WARC 文件拆分和排序到其各个记录中。示例文件：如何将文件拆分为以下行的不同记录：“WARC/1.0”？ ...

根据标题将 WARC 文件拆分为多个块：WARC/1.0 Python - Splitting a WARC file into chunks based on the header: WARC/1.0 Python

我是编程新手，正在尝试通过将 WARC 文件拆分成块然后将每个块存储在字典中来处理它。每个块应以 WARC/1.0 标头开头，并由 3 个空行分隔。我还想删除前两段： #从这里开始保留所有内容：我尝试使用生成器对块进行分组，但它返回了一组（整个文件）。有没有一种简单的方法可以将它 ...

Python：读取文件并向不同行的字典添加键和值 - Python: Reading a file and adding keys and values to dictionaries from different lines

我对 Python 非常陌生，在完成一项基本上是这样的作业时遇到了麻烦： # 逐行读取 WARC 文件以识别 string1。 #当找到 string1 时，将字符串的一部分作为键添加到字典中。 #然后继续读文件识别string2，将string2的一部分作为值加到前面的key上。 ...

为什么我的 Apache Nutch warc 和 commoncrawldump 在爬行后失败？ - Why does my Apache Nutch warc and commoncrawldump fail after crawl?

我已经使用 Nutch 成功抓取了一个网站，现在我想根据结果创建一个 warc。但是，同时运行 warc 和 commoncrawldump 命令会失败。此外，运行bin/nutch dump -segement ....在同一段文件夹上成功运行。我正在使用 nutch v-1.17 并运行 ...

Mapreduce回车 - Mapreduce carriage return

我想使用输入格式s3a在MapReduce中处理CommonCrawl WARC文件。问题在于，将删除输入行末尾的回车符，并改用制表符（因为它是默认的定界符）。为什么会这样？这是我启动MapReduce的代码 mapper.py ...

未在函数nodejs中设置变量 - Variable not set in function nodejs

我想通过解析函数中的warc文件将JSON数据分配给变量。该变量在函数外部不可访问，并在控制台上返回空数组。 ...

在函数上火花并行化 - spark parallelise on iterator with a function

我有一个迭代器，可以对WARC文档序列进行操作，并为每个文档生成经过修改的令牌列表：现在，我将apache spark paraellize应用于进一步应用所需的地图功能：我有以下疑问：这是实现此目标的最佳方法，还是有更简单的方法？当我并行化迭代器时，实 ...

有效地读取WARC文件 - Reading WARC Files Efficiently

我正在使用python的'warc'库读取WARC文件。我正在使用的当前文件约为4.50 GB。事情是 ; 执行这两行最多需要40秒。由于将有64000个类似这样的文件，因此每个文件花费40秒是不可接受的。你们有提高性能的方法或其他方法吗？编辑：我发现Beauti ...

使用warcio创建带有request.get（）响应的warc记录 - Creating a warc record with requests.get() response using warcio

我正在使用warcio库读取和写入warc文件。当尝试从warcio requests.get(URL,stream=False)写入响应对象的记录时， warcio仅将HTTP标头写入记录中，而不将有效负载写入。但是，启用流模式后，它可以正常工作。未启用流模式时，是否可以存 ...

根据URL从WARC文件中检索记录 - Retrieving records from WARC file based on url

我必须从基于Target-URI的* .warc.gz文件中检索记录。该文档说，这需要创建外部CDXJ索引文件。我试过以gzip.open()打开文件并执行一次seek(offset) ，但是seek操作要花费相当多的时间（秒）。还有其他正确的方法来检索记录。编辑：我 ...

常见的抓取关键字查询 - Common Crawl Keyword Lookup

我想查找具有特定关键字的所有网站的列表。例如，如果我搜索关键字“ Sports”或“ Football”，则只需从常见爬网中提取相关的网站URL，标题，描述和图像warc文件。目前，我可以用以下代码很好地读取warc文件。但是它正在获取指定warc文件中的所有URL。我只需要与 ...

无法从从普通爬网爬网的warc文件中找到URL - cannot find url from a warc file crawled from common crawl

我已经从常规爬网中爬网了数据，我想找出与每个记录相对应的url。这将输出一个空列表。我指的是以下链接https://dmorgan.info/posts/common-crawl-python/ 。我们是否获得对应于每个记录的目标uri或仅一个warc文件路径的一个目标uri？ ...

如何将Nutch 2.3数据转储到WARC文件中？ - How to dump Nutch 2.3 data into WARC file?

我需要将数据从Nutch 2.3转储到WARC文件中。但是，我找不到必要的模块。 Nutch 1.x具有此功能。我想知道正确的方法。 ...