繁体   English   中英

使用EMR进行数据集联接

[英]Data set join using EMR

我有2个以制表符分隔的数据集存储在AWS S3中。 我正在尝试编写一个EMR作业,该作业将基于一个公共键(一组字段值)将这两个数据集连接起来。 我当前的版本填充2个列表,并逐行比较它们; 输出具有公共键的行。 我一直在用python编写程序,但似乎无法弄清楚通过stdin带来2个文件并相互比较每一行以便将两个数据集连接起来的背后逻辑。 我发现的大多数文档都使用Java。 我正在使用Amazon的EMR来运行我的所有作业。 任何帮助是极大的赞赏。

谢谢

当您已经在使用EMR时,您是否看过Hive?

http://aws.amazon.com/articles/Elastic-MapReduce/3681655242374956

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM