簡體   English   中英

使用EMR進行數據集聯接

[英]Data set join using EMR

我有2個以制表符分隔的數據集存儲在AWS S3中。 我正在嘗試編寫一個EMR作業,該作業將基於一個公共鍵(一組字段值)將這兩個數據集連接起來。 我當前的版本填充2個列表,並逐行比較它們; 輸出具有公共鍵的行。 我一直在用python編寫程序,但似乎無法弄清楚通過stdin帶來2個文件並相互比較每一行以便將兩個數據集連接起來的背后邏輯。 我發現的大多數文檔都使用Java。 我正在使用Amazon的EMR來運行我的所有作業。 任何幫助是極大的贊賞。

謝謝

當您已經在使用EMR時,您是否看過Hive?

http://aws.amazon.com/articles/Elastic-MapReduce/3681655242374956

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM