如何在将非常大的 csv 文件导入 Z23EEEB4347BDD26BFC6B7EE9ZA 中的 mongodb 时修复 memory 错误？

Question

下面给出了将 pipe 分隔的 csv 文件导入到 monogdb 的代码。

import csv
import json
from pymongo import MongoClient

url = "mongodb://localhost:27017"
client = MongoClient(url)
db = client.Office
customer = db.Customer
jsonArray = []

with open("Names.txt", "r") as csv_file:
    csv_reader = csv.DictReader(csv_file, dialect='excel', delimiter='|', quoting=csv.QUOTE_NONE)
    for row in csv_reader:
        jsonArray.append(row)
    jsonString = json.dumps(jsonArray, indent=1, separators=(",", ":"))
    jsonfile = json.loads(jsonString)
    customer.insert_many(jsonfile)

以下是我在运行上述代码时遇到的错误。

Traceback (most recent call last):
  File "E:\Anaconda Projects\Mongo Projects\Office Tool\csvtojson.py", line 16, in <module>
    jsonString = json.dumps(jsonArray, indent=1, separators=(",", ":"))
  File "C:\Users\Predator\anaconda3\lib\json\__init__.py", line 234, in dumps
    return cls(
  File "C:\Users\Predator\anaconda3\lib\json\encoder.py", line 201, in encode
    chunks = list(chunks)
MemoryError

我如果在 for 循环下用一些缩进修改代码。 MongoDB 会以相同的数据重新导入，而不会停止。

import csv
import json
from pymongo import MongoClient

url = "mongodb://localhost:27017"
client = MongoClient(url)
db = client.Office
customer = db.Customer
jsonArray = []

with open("Names.txt", "r") as csv_file:
    csv_reader = csv.DictReader(csv_file, dialect='excel', delimiter='|', quoting=csv.QUOTE_NONE)
    for row in csv_reader:
        jsonArray.append(row)
        jsonString = json.dumps(jsonArray, indent=1, separators=(",", ":"))
        jsonfile = json.loads(jsonString)
        customer.insert_many(jsonfile)

Answer 1

我建议您使用 pandas； 它通过设置 chunksize 参数来提供“分块”模式，您可以根据 memory 的限制对其进行调整。 insert_many()也更有效。

加上代码变得更简单：

import pandas as pd
filename = "Names.txt"

with pd.read_csv(filename, chunksize=1000, delimiter='|') as reader:
    for chunk in reader:
        db.mycollection.insert_many(chunk.to_dict('records'))

如果您发布文件示例，我可以更新以匹配。

Answer 2

memory 问题可以通过一次插入一条记录来解决。

import csv
import json

from pymongo import MongoClient

url_mongo = "mongodb://localhost:27017"
client = MongoClient(url_mongo)
db = client.Office
customer = db.Customer
jsonArray = []
file_txt = "Text.txt"
rowcount = 0
with open(file_txt, "r") as txt_file:
    csv_reader = csv.DictReader(txt_file, dialect="excel", delimiter="|", quoting=csv.QUOTE_NONE)
    for row in csv_reader:
        rowcount += 1
        jsonArray.append(row)
    for i in range(rowcount):
        jsonString = json.dumps(jsonArray[i], indent=1, separators=(",", ":"))
        jsonfile = json.loads(jsonString)
        customer.insert_one(jsonfile)
print("Finished")

谢谢大家的想法

如何在将非常大的 csv 文件导入 Z23EEEB4347BDD26BFC6B7EE9ZA 中的 mongodb 时修复 memory 错误？

问题描述

2 个解决方案

解决方案1
1 2022-01-15 12:15:31

解决方案2
1 已采纳 2022-01-18 05:42:29

如何在将非常大的 csv 文件导入 Z23EEEB4347BDD26BFC6B7EE9ZA 中的 mongodb 时修复 memory 错误？

问题描述

2 个解决方案

解决方案1 1 2022-01-15 12:15:31

解决方案2 1 已采纳 2022-01-18 05:42:29

解决方案1
1 2022-01-15 12:15:31

解决方案2
1 已采纳 2022-01-18 05:42:29