繁体 English 中英

在python中为Hadoop Map Reduce创建自定义可写键/值类型？

[英]Create custom writable key/value type in python for Hadoop Map Reduce?

原文 2018-08-01 23:23:19 3 1 python/ hadoop/ mapreduce

我从事Hadoop MR已有一段时间，并且创建和使用了自定义（扩展） Writable类，包括MapWritable 。 现在，我需要将用Java编写的MR转换为Python。 我没有python的经验，现在正在探索相同的各种库。 我正在研究Pydoop和Mrjob之类的选项。 但是，我想知道这些库是否包含创建类似的自定义Writable类的选项以及如何创建它们。 如果没有，那么有什么可能的替代方法可以做到这一点？

1 个解决方案

在Pydoop中，对自定义Hadoop类型的显式支持仍然是WIP 。 换句话说，目前我们并没有为用户简化事情，但是可以通过一些工作来完成。 几个指针：

Pydoop已经包含自定义Java代码，该代码与Python软件包一起自动安装为pydoop.jar 。 我们根据需要将此额外的jar传递给Hadoop。 添加更多Java代码只需将源代码放在src/并将其JavaLib.java_files在setup.py中的JavaLib.java_files中JavaLib.java_files 。
在Python方面，您需要为新类型使用反序列化器。 例如，请参见LongWritableDeserializer中的pydoop.mapreduce.pipes 。

希望这可以帮助。

无法在Hadoop中使用python运行map reduce？

[英]unable to run map reduce using python in Hadoop?

在python map-reduce中，如何以最大值打印键？

[英]In python map-reduce, how to print the key with max value?

如何在Hadoop Map Reduce Framework的reducer阶段中使用唯一名称创建用户特定的文件（在Python中）

[英]How to create user specific file with unique name in the reducer phase of Hadoop Map Reduce Framework(In Python))

Map-Reduce / Hadoop按整数值排序（使用MRJob）

[英]Map-Reduce/Hadoop sort by integer value (using MRJob)

使用Hadoop Streaming和Python减少Map中的产品

[英]Cross Product in Map Reduce using Hadoop Streaming and Python

Hadoop Streaming Job-python停留在map 0％时减少了CDH4.5中的0％

[英]Hadoop Streaming Job - python stuck at map 0% reduce 0% in CDH4.5

Map-Reduce使用Hadoop解决python中的矩阵乘法

[英]Map-Reduce to solve Matrix multiplication in python with Hadoop

hadoop - 多个集群上的Map reduce

[英]hadoop - Map reduce on multiple cluster

Map Reduce Hadoop中的倒排列表

[英]Inverted list in Map Reduce Hadoop

如何减小我的自定义 python 类型的大小？

[英]How to reduce size of my custom python type?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 无法在Hadoop中使用python运行map reduce？在python map-reduce中，如何以最大值打印键？如何在Hadoop Map Reduce Framework的reducer阶段中使用唯一名称创建用户特定的文件（在Python中） Map-Reduce / Hadoop按整数值排序（使用MRJob）使用Hadoop Streaming和Python减少Map中的产品 Hadoop Streaming Job-python停留在map 0％时减少了CDH4.5中的0％ Map-Reduce使用Hadoop解决python中的矩阵乘法 hadoop - 多个集群上的Map reduce Map Reduce Hadoop中的倒排列表如何减小我的自定义 python 类型的大小？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM