簡體 English 中英

如何有效地轉換 gzip 文本文件的編碼？

[英]How to efficiently convert the encoding of a gzipped text file?

原文 2020-08-18 18:42:03 6 1 python/ encoding/ utf-8/ gzip

我有多個壓縮為 GZ 的大文件 CSV (~1GB)。 我的問題是它們在 ISO-8859-1 中編碼，我希望它們在 UTF-8 中。

顯然我可以解壓縮每個文件，將它們轉換為 UTF-8，然后再壓縮回來，但這對我來說在內存方面似乎效率很低。

有沒有一種干凈高效的方法可以在現場執行此操作並避免臨時存儲大文件？

1 個解決方案

您提到了兩個不同的問題，“內存效率低下”和“臨時存儲大文件”，就好像它們是一個問題一樣。 他們不是。

您當然不需要也不應該將整個文件加載到 memory 中。您可以使用 Python 的 GzipFile class 讀取文件的小塊並將小塊寫回。 所以沒有 memory 問題。

為此，您需要將輸入文件保留在大容量存儲器中，直到 output 文件完成，此時您可以刪除輸入文件。 雖然您可以避免在大容量存儲中存在中間未壓縮文件，但至少暫時需要足夠的空閑大容量存儲來存儲文件的第二個副本。

在python中使用特定文本編碼打開（可能是gzip）文件的通用方法

[英]Generic way to open (possibly gzipped) file with specific text encoding in python

如何在python中高效加載大文本文件

[英]How to load a big text file efficiently in python

如何從FTP服務器讀取gzip壓縮文件？

[英]How to read gzipped file from FTP server?

graphlab：如何將壓縮文件加載到 SFrame

[英]graphlab: How to load a gzipped file into SFrame

將文本文件的編碼從utf-8轉換為python中的ansi或unicode

[英]Convert encoding of a text file from utf-8 to ansi or unicode in python

如何在Python中將文本文件（包含非英語語言的文本）的編碼從“ UTF-16 LE”轉換為“ UTF-8”？

[英]How to convert encoding of text file (which contains text of language other than English) from “UTF-16 LE” to “UTF-8” in Python?

如何有效轉換0/1到簽名？

[英]How to convert 0/1 to sign efficiently?

逐行讀取gzip壓縮文本文件，以便在python 3.2.6中進行處理

[英]Reading gzipped text file line-by-line for processing in python 3.2.6

for循環后，在gzip壓縮的文本文件上進行迭代停止

[英]Iterating over a gzipped text file stops after for loop

如何通過每一行處理大的json文件並有效地轉換為csv？

[英]How to process big json file by each line and convert to csv efficiently?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在python中使用特定文本編碼打開（可能是gzip）文件的通用方法如何在python中高效加載大文本文件如何從FTP服務器讀取gzip壓縮文件？ graphlab：如何將壓縮文件加載到 SFrame 將文本文件的編碼從utf-8轉換為python中的ansi或unicode 如何在Python中將文本文件（包含非英語語言的文本）的編碼從“ UTF-16 LE”轉換為“ UTF-8”？如何有效轉換0/1到簽名？逐行讀取gzip壓縮文本文件，以便在python 3.2.6中進行處理 for循環后，在gzip壓縮的文本文件上進行迭代停止如何通過每一行處理大的json文件並有效地轉換為csv？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM