簡體   English   中英

沒有輸入文件的Hadoop流作業

[英]Hadoop Streaming Job with no input file

是否可以執行沒有輸入文件的Hadoop Streaming作業?

在我的用例中,我能夠使用單個映射器和執行參數為化簡器生成必要的記錄。 目前,我正在使用單行存根輸入文件,我想刪除此要求。

我們有2個用例。
1)

  1. 我想從對所有節點可用的網絡位置將文件的負載分布到hdfs中。 基本上,我將在映射器中運行ls並將輸出發送到一小組reducer。
  2. 我們將針對幾個模型利用幾個不同的參數范圍進行擬合。 模型名稱不會更改,而將在映射器中生成要運行的測試列表時,將其作為鍵轉到化簡器。

根據文檔,這是不可能的。 以下是執行所需的參數:

  • 輸入目錄名或文件名
  • 輸出目錄名
  • 映射器可執行文件或JavaClassName
  • reducer可執行文件或JavaClassName

看起來提供虛擬輸入文件是當前的方法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM