簡體 English 中英

Python處理包含奇怪字符的文件

[英]Python process a file that contains strange characters

原文 2017-10-04 13:34:41 4 1 python/ file/ encoding/ python-3.6

我有一個奇怪的文本文件，需要用XXX-XX-XXXX替換任何社會保險號。 大！ 只需將文件吸進去，將正則表達式垃圾掉，然后將其寫出即可。 熱愛生活，這將很容易。 我的接受標准是，我只能更改SSN，文件的其余部分必須保持完全相同，因為它具有固定寬度的列，甚至必須保留奇怪的字符才能調試其他進程。 好，很酷，我明白了。

我在以下位置讀取文件：

filehandle = open("text.txt", "r", encoding="UTF-8")

它給了我一些編碼錯誤，例如：

'utf-8' codec can't decode byte 0xd1 in position 6919: invalid continuation byte

我不知道編碼。 我嘗試過chardet，它認為它是ASCII，但我只是遇到了另一個編碼錯誤。 我只需要一種方法來吸收這個文件，做一個簡單的正則表達式，然后放回去。 我可以輸入：

errors="ignore"

它不會崩潰，但最終會去除一些奇怪的字符，然后丟掉列的間距。 這是我正在談論的其中一個字符為十六進制的示例（需要使用圖像，因為我無法在此處復制/粘貼它）：

4E是兒童中的“ N”
EF BF BD組成了..東西
53是兒童的S

我確定這是問題的一部分。 因此，我應該怎么做才能簡單地：

接收文件，使用正則表達式將\\ d {3}-\\ d {2}-\\ d {4}更改為XXX-XX-XXXX，其中文件中包含一些奇怪的字符，而無需更改文件中的任何其他內容？ 謝謝你們！

1 個解決方案

您應該以二進制模式打開文件，並避免處理UTF-8的Unicode解碼。

然后使用字節正則表達式查找社會保險號，並將找到的位置替換為相關字節。

用Python編寫后文件開頭的奇怪字符

[英]Strange characters in the begining of the file after writing in Python

帶有奇怪字符的Python unicode文件名

[英]Python unicode file name with strange characters

Python行文件迭代和奇怪的字符

[英]Python line file iteration and strange characters

控制台Python中的奇怪字符

[英]Strange characters in console Python

寫出到文本文件時出現 Python 奇怪的字符

[英]Python Strange Characters Appear when Write Out to a Text File

Python（3.5）-構造字符串以保存文件-字符串包含轉義符

[英]Python (3.5) - Constructing String to Save File - String Contains Escape Characters

Python中加載和讀取包含特殊字符的JSON文件的正確方法

[英]The correct way to load and read JSON file contains special characters in Python

用於刪除奇怪字符的Python正則表達式

[英]Python regex for removing strange characters

python無法編碼奇怪的字符

[英]python failing to encode strange characters

python html EmailMessage 奇怪的字符

[英]python html EmailMessage strange characters

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 用Python編寫后文件開頭的奇怪字符帶有奇怪字符的Python unicode文件名 Python行文件迭代和奇怪的字符控制台Python中的奇怪字符寫出到文本文件時出現 Python 奇怪的字符 Python（3.5）-構造字符串以保存文件-字符串包含轉義符 Python中加載和讀取包含特殊字符的JSON文件的正確方法用於刪除奇怪字符的Python正則表達式 python無法編碼奇怪的字符 python html EmailMessage 奇怪的字符

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM