將csv日志文件從Windows Server轉儲到ubuntu VirtualBox / hadoop / hdfs

Question

我們每天都從應用程序中以csv的形式獲取新文件，並將其存儲在Windows服務器中，例如c：/ program files（x86）/webapps/apachetomcat/.csv每個文件中包含不同的數據，因此是否有任何hadoop組件要傳輸從Windows服務器到hadoop hdfs的文件，我遇到了flume，kafka，但沒有得到正確的示例，任何人都可以在這里遮蔭。

因此，每個文件都有單獨的名稱，最大大小為10-20mb，每天的文件數超過200個文件，將文件添加到Windows服務器后，水槽/ kafka應該能夠將該文件放入hadoop中，以后的文件將從HDFS導入由spark處理並移至HDFS中另一個文件夾中的已處理文件

Answer 1

水槽是最好的選擇。 需要配置水槽代理（流程）。 槽劑分為三個部分：

Flume來源 -Flume將在其中查找新文件的地方。 c：/程序文件（x86）/webapps/apachetomcat/.csv。

槽水槽 -槽將文件發送到的位置。 您的情況下的HDFS位置。

Flume通道 -文件發送到接收器之前的臨時位置。 您需要為您的案例使用“文件通道”。

單擊此處獲取示例。

Answer 2

根據我的評論，更多細節將有助於縮小可能性，例如，首先想到的例子，將文件移至服務器，以及僅使用cron創建bash腳本和計划。

put

Usage: hdfs dfs -put <localsrc> ... <dst>

Copy single src, or multiple srcs from local file system to the destination file system. Also reads input from stdin and writes to destination file system.

hdfs dfs -put localfile /user/hadoop/hadoopfile
hdfs dfs -put localfile1 localfile2 /user/hadoop/hadoopdir
hdfs dfs  -put localfile hdfs://nn.example.com/hadoop/hadoopfile
hdfs dfs  -put - hdfs://nn.example.com/hadoop/hadoopfile Reads the input from stdin.
Exit Code:

Returns 0 on success and -1 on error.

將csv日志文件從Windows Server轉儲到ubuntu VirtualBox / hadoop / hdfs

問題描述

2 個解決方案

解決方案1
1 2016-11-30 21:56:04

解決方案2
0 2016-11-30 18:21:13

將csv日志文件從Windows Server轉儲到ubuntu VirtualBox / hadoop / hdfs

問題描述

2 個解決方案

解決方案1 1 2016-11-30 21:56:04

解決方案2 0 2016-11-30 18:21:13

解決方案1
1 2016-11-30 21:56:04

解決方案2
0 2016-11-30 18:21:13