[英]Custom map-reduce input formatter for Cassandra using native protocol
我正在使用Apache Cassandra(1.2)和Apache Map-Reduce处理一些数据。 目前,我使用org.apache.cassandra.hadoop.cql3中的 CqlPagingInputFormat
。 该提供程序使用Thrift提取数据。 Thrift似乎很慢(300M记录,在3个节点的群集中需要8多个小时才能读取),并且由于存在本机二进制协议,我想知道是否有人使用过它。
我对其他任何优化和配置调整都不感兴趣-这是一个单独的问题。
我的问题是
是否存在直接使用Cassandra本机协议的map-reduce输入格式化程序的实现?
如果没有,那么编写自己的第一步是什么,例如使用DataStax驱动程序?
Cassandra 2.0.7包括用于CQL Hadoop类的本机协议类似物:
org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper
示例/ hadoop_cql3_word_count中的WordCount代码已更新为使用这些类。
引入此功能的JIRA是https://issues.apache.org/jira/browse/CASSANDRA-6311
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.