簡體   English   中英

將來自傳感器的數據存儲到 hdfs

[英]Storing data from sensors into hdfs

我正在從事一個涉及使用HDFS進行存儲和使用Spark進行計算的項目。

我需要將來自傳感器的數據實時存儲到 HDFS 中。

例如,我有一個氣象站,其中傳感器每 5 秒生成一次數據(溫度壓力)。 我想知道如何將這些數據實時存儲在hdfs中

將大量小文件直接寫入HDFS可能會產生一些不良影響,因為它會影響主節點內存使用,並且與批處理相比可能會導致處理速度較低。

您的任何傳感器每月都會產生 50 萬個文件,因此,除非您的傳感器數量非常有限,否則我建議您查看消息代理。 Apache Kafka ( https://kafka.apache.org/ ) 是眾所周知的一種,並且已經捆綁在一些 Hadoop 發行版中。 例如,您可以使用它來“暫存”您的數據並以(小)批次處理它。

最后,如果您需要實時處理傳入數據(CEP 等),我建議您關注 Spark Streaming( https://spark.apache.org/streaming/ )技術。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM