簡體   English   中英

如何使用python從mongoDB實時讀取數據

[英]How to read data in real time from mongoDB using python

我想從mongoDB實時或近乎實時地讀取數據(來自一個集合的文檔),並將其轉換為pandas數據框架以進行進一步分析。

我知道如何從mongoDB到python提取數據,但是,我想保持連接打開狀態,以便每當有新數據輸入時,我都會在Python中使用它進行實時分析。

client = MongoClient('localhost', 27017)
db = client.test_insert
collection = db.dataset

df = pd.DataFrame(list(db.dataset.find().limit(1)))

請幫忙 :)

您可以將集合轉換為有上限的集合,以便可以使用尾部光標 但是請注意這還有其他含義(整個集合的固定大小(以字節為單位),如果大小超出限制,則將刪除較舊的文檔,就無法進行增加文檔大小的更新)。

如果您不想使集合受限 ,則可以在oplog集合上創建一個可尾光標 這樣,您的應用程序將收到副本集上所有更改的不斷更新。 您只需要過濾掉對您不感興趣的集合的更新。

如果查詢在索引字段上,則不應使用可結尾的游標,而應使用常規游標。 您可以在Python中或更靈活地在MongoDB中跟蹤索引字段的最后一個值。 然后,您可以使用無限while循環來查詢任何新記錄:

db.<collection>.find( { indexedField: { $gt: <lastvalue> } } )

根據數據幀分析的復雜程度,您可能需要調查是否應添加如RabbitMQ的工作隊列。 這種設計將允許一個進程將新記錄從MongoDB推送到消息隊列,並允許多個進程處理該隊列上的傳入消息。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM