Python解析CSV忽略带双引号的逗号

Question

我有一个带有如下行的 CSV 文件：

"AAA", "BBB", "Test, Test", "CCC"
"111", "222, 333", "XXX", "YYY, ZZZ"

等等 ...

我不想在双引号下解析逗号。 IE。 我的预期结果应该是

AAA
BBB
Test, Test
CCC

我的代码：

import csv
with open('values.csv', 'rb') as f:
    reader = csv.reader(f)
    for row in reader:
        print row

我尝试在 python 下使用 csv 包，但没有运气。 解析会分解所有逗号。

如果我遗漏了什么，请告诉我

Answer 1

应该这样做：

lines = '''"AAA", "BBB", "Test, Test", "CCC"
           "111", "222, 333", "XXX", "YYY, ZZZ"'''.splitlines()
for l in  csv.reader(lines, quotechar='"', delimiter=',',
                     quoting=csv.QUOTE_ALL, skipinitialspace=True):
    print l
>>> ['AAA', 'BBB', 'Test, Test', 'CCC']
>>> ['111', '222, 333', 'XXX', 'YYY, ZZZ']

Answer 2

输入中的引号字符前有空格。 将skipinitialspace设置为True可以跳过定界符之后的任何空格：

如果为True ，则分隔符之后的空白将被忽略。 默认值为False 。

>>> import csv
>>> lines = '''\
... "AAA", "BBB", "Test, Test", "CCC"
... "111", "222, 333", "XXX", "YYY, ZZZ" 
... '''
>>> reader = csv.reader(lines.splitlines())
>>> next(reader)
['AAA', ' "BBB"', ' "Test', ' Test"', ' "CCC"']
>>> reader = csv.reader(lines.splitlines(), skipinitialspace=True)
>>> next(reader)
['AAA', 'BBB', 'Test, Test', 'CCC']

Answer 3

[发布编辑更清晰。] 如果您不想在双引号下解析逗号，因此您的输出将包含列内的逗号，这是另一种方法。 它很优雅，并允许您使用云存储桶来存储您的 CSV 文件。 关键是使用 [smart_open][1] 作为标准文件打开的替代品。

另外，我使用 [DictReader][2] 而不是阅读器。

import csv
import json
from smart_open import open

with open('./temp.csv') as csvFileObj:
    reader = csv.DictReader(csvFileObj, delimiter=',', quotechar='"')
    # csv.reader requires bytestring input in python2, unicode input in python3
    for record in reader:
        # record is a dictionary of the csv record
        print(f'Record as json shows proper reading of file:\n {json.dumps(record, indent=4)})')
        print(f'You can reference an individual field too: {record["field3"]}')
        print(f'                                           {record["field4"]}')

请注意，我向 DictReader 添加了 2 个参数。 delimiter=',', quotechar='"' 逗号是默认分隔符，但我添加了它以防有人需要更改它。 Quotechar 是必要的，因为它不是默认值。代码的实际输出：

Record as json shows proper reading of file:
 {
    "field1": "AAA",
    "field2": "BBB",
    "field3": "Test, Test",
    "field4": "CCC"
})
You can reference an individual field too: Test, Test
                                           CCC
done
Record as json shows proper reading of file:
 {
    "field1": "111",
    "field2": "222, 333",
    "field3": "XXX",
    "field4": "YYY, ZZZ"
})
You can reference an individual field too: XXX
                                           YYY, ZZZInput file:

输入数据文件（为了清楚起见，我添加了一个标题记录。如果您没有标题记录，第一条记录将被吞噬，但也有可能是一个参数。）

"field1","field2","field3","field4"
"AAA","BBB","Test, Test","CCC"
"111","222, 333","XXX","YYY, ZZZ"

我希望这可以帮助别人。

Python解析CSV忽略带双引号的逗号

问题描述

3 个解决方案

解决方案1
42 已采纳 2014-02-03 12:23:23

解决方案2
12 2014-02-03 12:13:45

解决方案3
1 2021-10-11 15:33:53

Python解析CSV忽略带双引号的逗号

问题描述

3 个解决方案

解决方案1 42 已采纳 2014-02-03 12:23:23

解决方案2 12 2014-02-03 12:13:45

解决方案3 1 2021-10-11 15:33:53

解决方案1
42 已采纳 2014-02-03 12:23:23

解决方案2
12 2014-02-03 12:13:45

解决方案3
1 2021-10-11 15:33:53