繁体 English 中英

使用本机协议的Cassandra的自定义map-reduce输入格式化程序

[英]Custom map-reduce input formatter for Cassandra using native protocol

原文 2014-04-21 12:45:22 5 1 java/ hadoop/ mapreduce/ cassandra/ datastax-java-driver

我正在使用Apache Cassandra（1.2）和Apache Map-Reduce处理一些数据。 目前，我使用org.apache.cassandra.hadoop.cql3中的 CqlPagingInputFormat 。 该提供程序使用Thrift提取数据。 Thrift似乎很慢（300M记录，在3个节点的群集中需要8多个小时才能读取），并且由于存在本机二进制协议，我想知道是否有人使用过它。

我对其他任何优化和配置调整都不感兴趣-这是一个单独的问题。

我的问题是

是否存在直接使用Cassandra本机协议的map-reduce输入格式化程序的实现？
如果没有，那么编写自己的第一步是什么，例如使用DataStax驱动程序？

1 个解决方案

Cassandra 2.0.7包括用于CQL Hadoop类的本机协议类似物：

org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper

示例/ hadoop_cql3_word_count中的WordCount代码已更新为使用这些类。

引入此功能的JIRA是https://issues.apache.org/jira/browse/CASSANDRA-6311

使用map-reduce / aggregation的MongoDB查询？

[英]MongoDB query using map-reduce/Aggregation?

在Map-Reduce中改组

[英]Shuffling in Map-Reduce

即时将输入数据添加到Hadoop Map-Reduce Job？

[英]Add input data on the fly to Hadoop Map-Reduce Job?

我可以在map-reduce中编写自定义Java方法吗？

[英]Can I write custom java methods inside map-reduce?

如何将多个输入格式文件传递给map-reduce作业？

[英]How to pass multiple input format files to map-reduce job?

映射减少编程错误

[英]Map-Reduce Programming Error

Map-Reduce中的二级排序

[英]Secondary sorting in Map-Reduce

Hadoop Map-Reduce。记录阅读器

[英]Hadoop Map-Reduce . RecordReader

映射减少实例化异常

[英]Map-reduce Instantiation Exception

使用Hadoop Map-Reduce去除不可打印的字符

[英]Strip non-printable characters using Hadoop Map-Reduce

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用map-reduce / aggregation的MongoDB查询？在Map-Reduce中改组即时将输入数据添加到Hadoop Map-Reduce Job？我可以在map-reduce中编写自定义Java方法吗？如何将多个输入格式文件传递给map-reduce作业？映射减少编程错误 Map-Reduce中的二级排序 Hadoop Map-Reduce。记录阅读器映射减少实例化异常使用Hadoop Map-Reduce去除不可打印的字符

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM