簡體   English   中英

如何從csv文件中的一行讀取JSON字符串?

[英]How to read JSON string from a line in csv file?

我是MapReduce和MRjob的新手,我試圖讀取要在python中使用MRjob處理的csv文件。 但是它有大約5列帶有JSON字符串(例如{})或JSON字符串數組(例如[{},{}])的列,其中有些是嵌套的。

到目前為止,我的映射器如下所示:

from mrjob.job import MRJob
import csv
from io import StringIO

class MRWordCount(MRJob):
    def mapper(self, _, line):
        l = StringIO(line)
        reader = csv.reader(l) # returns a generator.

        for cols in reader:
            columns = cols

        yield None, columns

我得到了錯誤-

_csv。錯誤:字段大於字段限制(131072)

但這似乎是發生了,因為我的代碼也將JSON字符串也分成了單獨的列(由於內部的逗號)。

我如何做到這一點,以便不拆分JSON字符串? 也許我忽略了什么?

另外,是否還有其他方法可以使MRjob讀取此文件,從而使此過程更簡單或更簡潔?

您的JSON字符串沒有用引號引起來,因此該字段中的每個逗號都會使csv引擎將其視為新列。 這里看看您要尋找的是quotechar更改您的數據,以便json包含一個特殊字符(默認為" )並相應地調整您的csv閱讀器

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM