繁体   English   中英

在Python中读取包含未定义字符的csv文件

[英]Reading csv-file in Python containing undefined characters

我正在使用以下代码在Windows计算机上以Python读取CSV文件(ANSI):

import csv
with open('ttest.dat') as csvDataFile:
    csvReader = csv.reader(csvDataFile, delimiter="\t")
    for i in csvReader:
        print(i)

但是,我得到了错误: UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 4: character maps to <undefined>

在Notepad ++中检查文件后(在Notepad中将其转换为UTF-8编码后),我看到出现了以下内容:

在此处输入图片说明

看来与hello相邻的这些字符导致了此问题。 当我手动删除它们时,可以读取文件。

有没有一种方法可以在Python中加载文件,同时明确告诉其忽略这些奇数字符? 或者,是否有一种方法可以自动从这些字符中剥离文本? 我的文件很大,因此手动查看每一行是不现实的。

注意:在RI中,使用read.csv可以毫无问题地读取文件

with open('ttest.dat', encoding="utf8") as csvDataFile:

这将以UTF-8编码打开文件。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM