將Java代碼運行到Hadoop

Question

給定一個可以處理文件的Java程序，是否可以利用集群的並行性在hadoop環境中運行它？

這是偽代碼的示例：

    A = read.flespi  // Read one record from FLESPI File

 B = read.fltquo // Read one record from  FLTQUO File



while( flespi != EOF ) /* Until flespi is not finished */

{

                If( A.I1-codice-titolo-int ==B. WTQ01C-COD-TIT-INT )

                {

                                PERFORM E200-IMPOSTA-CAMPI-OUTPUT   ();   /* Write output */

                               A = read.flespi  // Leggo record da file FLESPI

                                B = read.fltquo // Leggo record da file FLTQUO

                               Continue;

                }

                If( A.I1-codice-titolo-int > B. WTQ01C-COD-TIT-INT )

                {              B = read.fltquo // 

                               Continue;                        

               }

                If( A.I1-codice-titolo-int < B. WTQ01C-COD-TIT-INT )

                {              /* Write output in some way */

                               WRITE…

                                A = read.flespi; //              

                               Continue;            

               }



}

如您所見，它同時處理2個文件。 謝謝

Answer 1

是的，您可以觀察到並行性，可以在hadoop中使用多個輸入路徑來處理hadoop中的多個文件

Answer 2

您的問題對我來說聽起來像是這樣，您要從兩個文件中獲取數據並比較兩個文件中的值，然后將其寫入其他文件（？）。 您可以查看Mapside聯接或Reduce側聯接，以使用MulitpleInput路徑和Multiple Output路徑執行此操作

Answer 3

您可以在http://www.oodlestechnologies.com/blogs/Reduce-side-join-in-hadoop-%3A-Data-analyses-from-different-types-of-data-sources中找到一個不錯的教程

將Java代碼運行到Hadoop

問題描述

3 個解決方案

解決方案1
0 2014-11-09 10:24:53

解決方案2
0 2014-11-09 10:58:39

解決方案3
0

將Java代碼運行到Hadoop

問題描述

3 個解決方案

解決方案1 0 2014-11-09 10:24:53

解決方案2 0 2014-11-09 10:58:39

解決方案3 0

解決方案1
0 2014-11-09 10:24:53

解決方案2
0 2014-11-09 10:58:39

解決方案3
0