[英]Data set join using EMR
我有2個以制表符分隔的數據集存儲在AWS S3中。 我正在嘗試編寫一個EMR作業,該作業將基於一個公共鍵(一組字段值)將這兩個數據集連接起來。 我當前的版本填充2個列表,並逐行比較它們; 輸出具有公共鍵的行。 我一直在用python編寫程序,但似乎無法弄清楚通過stdin帶來2個文件並相互比較每一行以便將兩個數據集連接起來的背后邏輯。 我發現的大多數文檔都使用Java。 我正在使用Amazon的EMR來運行我的所有作業。 任何幫助是極大的贊賞。
謝謝
當您已經在使用EMR時,您是否看過Hive?
http://aws.amazon.com/articles/Elastic-MapReduce/3681655242374956
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.