簡體 English 中英

實時數據收集和“離線”處理

[英]Real-time data collection and 'offline' processing

原文 2016-05-08 06:23:20 6 1 python/ read-write/ data-stream

我有連續的數據流。 我想實時地對數據進行少量處理（主要是壓縮，將某些數據從末端滾動，無論需要做什么），然后存儲數據。 大概沒問題。 HDF5文件格式應該很棒！ OOC數據，沒問題。 Pytables。

現在麻煩了。 有時，作為一個完全獨立的過程，以便仍在收集數據，我想執行一個涉及數據（訂單分鍾）的耗時計算。 這涉及讀取我正在編寫的相同文件。

人們如何做到這一點？

當然，讀取您當前正在編寫的文件應該具有挑戰性，但是似乎過去它已經足夠成熟，人們已經在考慮某種巧妙的解決方案-或至少是一種自然的解決方法。

部分解決方案：

HDF5-1.10.0似乎具有SWMR-單寫入，多讀取的功能。 這似乎正是我想要的。 我找不到此最新版本的python包裝器，或者如果存在，則無法讓Python與正確版本的hdf5對話。 這里的任何提示都將受到歡迎。 我正在使用Conda軟件包管理器。
我可以想象寫入一個緩沖區，該緩沖區偶爾會刷新並添加到大型數據庫中。 如何確保在執行此操作時不會丟失數據？

這似乎在計算上也可能很昂貴，但是也許沒有解決的辦法。

收集更少的數據。 那有什么樂趣？

1 個解決方案

我建議您看一下將Apache Kafka添加到管道中的過程，它可以充當數據緩沖區，並幫助您分離對收集的數據完成的不同任務。

管道示例：

原始數據===> kafka主題（raw_data）===>小處理====> kafak主題（light_processing）===>從light_processing主題讀取並寫入db或文件的進程

同時，您可以使用另一個進程從light_processing topic或任何其他主題讀取相同的數據，並進行繁重的處理等。

如果light processing和heavy processing使用相同的groupId連接到kafka主題，則將復制數據，並且兩個進程將獲得相同的流

希望能有所幫助。

用於處理數據的實時管道，插入到 PSQL

[英]Real-time pipeline for processing data, insert into PSQL

數據處理中多個文件的實時處理（Python Multiprocessing）

[英]Real-time handling of multiple files in data processing (Python Multiprocessing)

如何在Python中將實時數據讀入循環與更多處理密集型操作分開？

[英]How to keep a real-time data read-in loop separate from more processing intensive operations in Python?

圖像處理：實時FedEx徽標檢測器的算法改進

[英]Image Processing: Algorithm Improvement for Real-Time FedEx Logo Detector

讀取作為塊插入的實時數據

[英]Read real-time data inserted as chunks

使用python進行實時音頻信號處理

[英]Real-time audio signal processing using python

使用jQuery的網頁上的實時數據

[英]Real-time data on webpage with jQuery

實時繪制光電傳感器數據

[英]Plotting a Photocell Sensor Data in the Real-time

來自yfinance的實時數據

[英]Real-time data from yfinance

使用pandas進行實時數據處理

[英]real time data processing with pandas

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 用於處理數據的實時管道，插入到 PSQL 數據處理中多個文件的實時處理（Python Multiprocessing）如何在Python中將實時數據讀入循環與更多處理密集型操作分開？圖像處理：實時FedEx徽標檢測器的算法改進讀取作為塊插入的實時數據使用python進行實時音頻信號處理使用jQuery的網頁上的實時數據實時繪制光電傳感器數據來自yfinance的實時數據使用pandas進行實時數據處理

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM