在 Python 中读取 .tar.gz 文件

Question

我有一个 25GB 的文本文件。 所以我将它压缩到 tar.gz 并变成了 450 MB。 现在我想从 python 读取该文件并处理文本数据。为此我提到了问题。 但在我的情况下，代码不起作用。 代码如下：

import tarfile
import numpy as np 

tar = tarfile.open("filename.tar.gz", "r:gz")
for member in tar.getmembers():
     f=tar.extractfile(member)
     content = f.read()
     Data = np.loadtxt(content)

错误如下：

Traceback (most recent call last):
  File "dataExtPlot.py", line 21, in <module>
    content = f.read()
AttributeError: 'NoneType' object has no attribute 'read'

另外，还有其他方法可以完成此任务吗？

Answer 1

文档告诉我们，如果成员不是常规文件或链接，则extractfile()将返回None 。

一种可能的解决方案是跳过None结果：

tar = tarfile.open("filename.tar.gz", "r:gz")
for member in tar.getmembers():
     f = tar.extractfile(member)
     if f is not None:
         content = f.read()

Answer 2

如果成员既不是文件也不是链接，则tarfile.extractfile()可以返回None 。 例如，您的 tar 存档可能包含目录或设备文件。 修复：

import tarfile
import numpy as np 

tar = tarfile.open("filename.tar.gz", "r:gz")
for member in tar.getmembers():
     f = tar.extractfile(member)
     if f:
         content = f.read()
         Data = np.loadtxt(content)

Answer 3

你可以试试这个

t = tarfile.open("filename.gz", "r")
for filename in t.getnames():
    try:
        f = t.extractfile(filename)
        Data = f.read()
        print filename, ':', Data
    except :
        print 'ERROR: Did not find %s in tar archive' % filename

Answer 4

您无法“读取”某些特殊文件（例如链接）的内容，但 tar 支持它们并且 tarfile 可以正常提取它们。 当tarfile提取它们时，它不会返回类似文件的对象而是 None。 你会得到一个错误，因为你的 tarball 包含这样一个特殊的文件。

一种方法是在提取之前确定您正在处理的 tarball 中条目的类型：有了这些信息，您就可以决定是否可以“读取”文件。 您可以通过调用tarfile.getmembers()返回tarfile.TarInfo来实现此tarfile.TarInfo ，其中包含有关 tarball 中包含的文件类型的详细信息。

tarfile.TarInfo类具有确定 tar 成员类型所需的所有属性和方法，例如isfile()或isdir()或tinfo.islnk()或tinfo.issym() ，然后相应地决定如何处理每个成员（提取与否等）。

例如，我使用这些来测试此修补 tarfile 中的文件类型，以跳过以特殊方式提取特殊文件和处理链接的过程：

for tinfo in tar.getmembers():
    is_special = not (tinfo.isfile() or tinfo.isdir()
                      or tinfo.islnk() or tinfo.issym())
...

Answer 5

我的需求：

蟒蛇3。
我的 tar.gz 文件由多个utf-8文本文件和目录组成。
需要从所有文件中读取文本行。

问题：

tar.getmembers() 返回的 tar 对象可能是None 。
内容extractfile(fname)返回的是一个字节字符串（例如 b'Hello\\t\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd'）。 Unicode 字符显示不正确。

解决方案：

首先检查 tar 对象的类型。 我参考了 tarfile lib文档中的示例。 （搜索“如何读取 gzip 压缩的 tar 存档并显示一些成员信息”）
从字节 str 解码为普通 str。 （参考- 投票最多的答案）

代码：

with tarfile.open("sample.tar.gz", "r:gz") as tar:
for tarinfo in tar:
    logger.info(f"{tarinfo.name} is {tarinfo.size} bytes in size and is: ")
    if tarinfo.isreg():
        logger.info(f"Is regular file: {tarinfo.name}")
        f = tar.extractfile(tarinfo.name)  
        # To get the str instead of bytes str
        # Decode with proper coding, e.g. utf-8
        content = f.read().decode('utf-8', errors='ignore')
        # Split the long str into lines
        # Specify your line-sep: e.g. \n
        lines = content.split('\n')
        for i, line in enumerate(lines):
            print(f"[{i}]: {line}\n")
    elif tarinfo.isdir():
        logger.info(f"Is dir: {tarinfo.name}")
    else:
        logger.info(f"Is something else: {tarinfo.name}.")

Answer 6

在 Jupyter notebook 中，你可以像下面这样

!wget -c http://qwone.com/~jason/20Newsgroups/20news-bydate.tar.gz -O - | tar -xz

在 Python 中读取 .tar.gz 文件

问题描述

6 个解决方案

解决方案1
42 已采纳 2016-05-27 04:22:13

解决方案2
6 2016-05-27 04:24:41

解决方案3
3 2016-05-27 04:36:37

解决方案4
1 2016-05-28 18:57:12

解决方案5
1 2020-05-09 03:48:13

解决方案6
0 2020-04-10 14:20:45

在 Python 中读取 .tar.gz 文件

问题描述

6 个解决方案

解决方案1 42 已采纳 2016-05-27 04:22:13

解决方案2 6 2016-05-27 04:24:41

解决方案3 3 2016-05-27 04:36:37

解决方案4 1 2016-05-28 18:57:12

解决方案5 1 2020-05-09 03:48:13

解决方案6 0 2020-04-10 14:20:45

解决方案1
42 已采纳 2016-05-27 04:22:13

解决方案2
6 2016-05-27 04:24:41

解决方案3
3 2016-05-27 04:36:37

解决方案4
1 2016-05-28 18:57:12

解决方案5
1 2020-05-09 03:48:13

解决方案6
0 2020-04-10 14:20:45