[英]Running Java code to Hadoop
給定一個可以處理文件的Java程序,是否可以利用集群的並行性在hadoop環境中運行它?
這是偽代碼的示例:
A = read.flespi // Read one record from FLESPI File
B = read.fltquo // Read one record from FLTQUO File
while( flespi != EOF ) /* Until flespi is not finished */
{
If( A.I1-codice-titolo-int ==B. WTQ01C-COD-TIT-INT )
{
PERFORM E200-IMPOSTA-CAMPI-OUTPUT (); /* Write output */
A = read.flespi // Leggo record da file FLESPI
B = read.fltquo // Leggo record da file FLTQUO
Continue;
}
If( A.I1-codice-titolo-int > B. WTQ01C-COD-TIT-INT )
{ B = read.fltquo //
Continue;
}
If( A.I1-codice-titolo-int < B. WTQ01C-COD-TIT-INT )
{ /* Write output in some way */
WRITE…
A = read.flespi; //
Continue;
}
}
如您所見,它同時處理2個文件。 謝謝
是的,您可以觀察到並行性,可以在hadoop中使用多個輸入路徑來處理hadoop中的多個文件
您的問題對我來說聽起來像是這樣,您要從兩個文件中獲取數據並比較兩個文件中的值,然后將其寫入其他文件(?)。 您可以查看Mapside聯接或Reduce側聯接,以使用MulitpleInput路徑和Multiple Output路徑執行此操作
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.