簡體   English   中英

將csv日志文件從Windows Server轉儲到ubuntu VirtualBox / hadoop / hdfs

[英]Dumping csv logs files from windows server to ubuntu VirtualBox/hadoop/hdfs

我們每天都從應用程序中以csv的形式獲取新文件,並將其存儲在Windows服務器中,例如c:/ program files(x86)/webapps/apachetomcat/.csv每個文件中包含不同的數據,因此是否有任何hadoop組件要傳輸從Windows服務器到hadoop hdfs的文件,我遇到了flume,kafka,但沒有得到正確的示例,任何人都可以在這里遮蔭。

因此,每個文件都有單獨的名稱,最大大小為10-20mb,每天的文件數超過200個文件,將文件添加到Windows服務器后,水槽/ kafka應該能夠將該文件放入hadoop中,以后的文件將從HDFS導入由spark處理並移至HDFS中另一個文件夾中的已處理文件

水槽是最好的選擇。 需要配置水槽代理(流程)。 槽劑分為三個部分:

Flume來源 -Flume將在其中查找新文件的地方。 c:/程序文件(x86)/webapps/apachetomcat/.csv。

槽水槽 -槽將文件發送到的位置。 您的情況下的HDFS位置。

Flume通道 -文件發送到接收器之前的臨時位置。 您需要為您的案例使用“文件通道”。

單擊此處獲取示例。

根據我的評論,更多細節將有助於縮小可能性,例如,首先想到的例子,將文件移至服務器,以及僅使用cron創建bash腳本和計划。

put

Usage: hdfs dfs -put <localsrc> ... <dst>

Copy single src, or multiple srcs from local file system to the destination file system. Also reads input from stdin and writes to destination file system.

hdfs dfs -put localfile /user/hadoop/hadoopfile
hdfs dfs -put localfile1 localfile2 /user/hadoop/hadoopdir
hdfs dfs  -put localfile hdfs://nn.example.com/hadoop/hadoopfile
hdfs dfs  -put - hdfs://nn.example.com/hadoop/hadoopfile Reads the input from stdin.
Exit Code:

Returns 0 on success and -1 on error.

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM