簡體   English   中英

從群集的所有計算機訪問HDFS文件

[英]Access to HDFS files from all computers of a cluster

我的程序最初是在本地模式下啟動的,而現在我的目的是在完全分布式模式下啟動的。 為此,有必要從集群的所有計算機訪問在reducer和mapper功能中執行讀取的文件,因此我在http://answers.mapr.com/questions/4444/上提出了問題。 Hadoop腳本中的選項文件語法 (也因為在哪個計算機上執行映射器功能尚不知道(從程序邏輯映射器將只有一個,並且僅使用以下命令啟動程序)一個映射器),則還必須在所有群集上提供對通過映射器功能輸入到達的文件的訪問。 在這方面,我有一個問題:是否可以直接使用hdfs-files:即從HDFS的文件系統中的Linux文件系統中預先復制文件(因此,我假設這些文件在Windows的所有計算機上都可用)。群集(如果不是這樣,請更正),然后在群集計算機上執行的reducer和mapper函數中使用HDFS Java API讀取這些文件?

如果對該問題的回答是肯定的,請舉一個從HDFS文件系統中的Linux文件系統復制實例,並通過HDFS Java API將Java中的這些文件讀取到程序中,並將其內容記錄在java字符串中。

將所有輸入文件復制到節點(可以使用scp來完成)。 然后登錄到您的節點( ssh )並執行以下操作,將文件從本地文件系統復制到hdfs:

hadoop fs -put $localfilelocation $destination

現在,在您的hadoop作業中,您可以使用輸入為hdfs:///$destination 無需使用任何額外的API即可讀取HDFS。

如果你真的想從HDFS讀取文件,並使用比輸入其他文件作為addiotional信息,屆時提及

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM