繁体 English 中英

如何从 warc.wet.gz 中提取每一个 payload？

[英]How can one extract every payload from warc.wet.gz?

原文 2016-01-05 13:17:39 4 1 python/ common-crawl/ warc

我一直在尝试从 Common Crawl 的湿文件中提取文本数据。 我目前正在使用 Inte.net Archieve 的 warc 解析器https://github.com/inte.netarchive/warc

import warc
w = warc.open(fileName)
for record in w:
  text = record.payload.read()

但是这种方法只提供不到有效负载中一半的数据。 是否有任何其他更好的方法可以提供文件中每个有效负载中的所有数据。

1 个解决方案

warc 库的 gzip 处理有一个错误，导致 warc 无法读取整个 WET 文件。 为了克服这个错误，你应该使用 Python 的 gzip 库来即时解压缩文件 stream，如下所示：

import gzip
import warc
gzip_fobj = gzip.open(wet_file, "r")
warc_fobj = warc.WARCFile(fileobj=gzip_fobj, compress=False)

从WARC.gz文件中提取标头

[英]Extracting headers from WARC.gz file

如何从Warc文件中读取记录的子集

[英]How to read a subset of records from a warc file

从十六进制 CAN 有效负载中提取数据

[英]Extract data from hex CAN payload

映射一系列warc.gz文件，EMR

[英]Mapping a range of warc.gz files, EMR

从.gz文件中提取数据

[英]Extract data from .gz file

从列表中一一提取元素并传递给请求负载

[英]Extract elements one by one from list and pass to request payload

如何在python中提取gz文件

[英]How to extract a gz file in python

Python无法完全读取“ warc.gz”文件

[英]Python cannot read “warc.gz” file completely

python 从多个.gz 文件中提取关键字

[英]python extract keywords from multiple .gz files

如何使用python复制和提取.gz文件

[英]How to copy and extract .gz files using python

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从WARC.gz文件中提取标头如何从Warc文件中读取记录的子集从十六进制 CAN 有效负载中提取数据映射一系列warc.gz文件，EMR 从.gz文件中提取数据从列表中一一提取元素并传递给请求负载如何在python中提取gz文件 Python无法完全读取“ warc.gz”文件 python 从多个.gz 文件中提取关键字如何使用python复制和提取.gz文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM