繁体 English 中英

从MongoDB获取大数据的最佳方法

[英]Best approach to get large data from MongoDB

原文 2016-04-26 20:48:51 8 1 python/ mongodb/ pymongo

我有一个数据库，超过200万条记录。 每条记录都包含一个图像的URL，我需要下载并存储到AWS S3 。

而不是一次下载一个，然后一次上传一个，是否有更好的方法来处理这个问题？

我目前正在使用Python，因此使用pymongo。

for item in itemsCursor: 
    download_image(item['imageurl')

def download_image(item):
   name = 'example.jpg'
   response = requests.get(url)
   img = Image.open(StringIO(response.content))
   img.save('temp.jpg', "JPEG")
   s3.meta.client.upload_file('temp.jpg', 'bucket', name)

1 个解决方案

执行此操作的最佳方法是进行批处理和多线程处理。 我通过添加一个带有日期戳或布尔值的字段来解决类似的问题，该字段指示特定项目已被处理（或者在这种情况下，可能是在AWS上链接到它的文件ID或URL）并编写将要编写的客户端脚本或应用程序选择一个或一批需要处理的项目并通过它们进行流失。

当然，确保运行脚本的线程或其他计算机不会通过创建特定值或甚至单独的字段来表示线程已声明特定记录并且正在处理它。

大matplotlib像素图最佳方法

[英]Large matplotlib pixel figure best approach

在 Django 网站上处理大文件的最佳方法

[英]Best approach to handle large files on django website

python 从 mysql 中绘制数据。最好的方法？

[英]python charting data from mysql. Best approach?

如何将大数据集从MongoDB读取到Pandas DataFrame

[英]How to read large data set from mongodb to pandas dataframe

EC2使用python从MongoDB查询大数据失败

[英]EC2 querying large data from MongoDB using python is failing

使用 BERT 或 LSTM 模型的大型文档语义相似性的最佳方法

[英]Best approach for semantic similarity in large documents using BERT or LSTM models

使用 BeautifulSoup 获取属性文本的最佳方法

[英]Best approach to get attribute text with BeautifulSoup

python-分析抓取数据时的最佳方法

[英]python - best approach when analysing scraped data

如何在python中验证数据的最佳方法是什么？

[英]How is the best approach to validate data in python?

Python - 将数据中的代码映射到描述的最佳方法

[英]Python - best approach to mapping codes in data to description

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 大matplotlib像素图最佳方法在 Django 网站上处理大文件的最佳方法 python 从 mysql 中绘制数据。最好的方法？如何将大数据集从MongoDB读取到Pandas DataFrame EC2使用python从MongoDB查询大数据失败使用 BERT 或 LSTM 模型的大型文档语义相似性的最佳方法使用 BeautifulSoup 获取属性文本的最佳方法 python-分析抓取数据时的最佳方法如何在python中验证数据的最佳方法是什么？ Python - 将数据中的代码映射到描述的最佳方法

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM