繁体   English   中英

使用本机协议的Cassandra的自定义map-reduce输入格式化程序

[英]Custom map-reduce input formatter for Cassandra using native protocol

我正在使用Apache Cassandra(1.2)和Apache Map-Reduce处理一些数据。 目前,我使用org.apache.cassandra.hadoop.cql3中的 CqlPagingInputFormat 该提供程序使用Thrift提取数据。 Thrift似乎很慢(300M记录,在3个节点的群集中需要8多个小时才能读取),并且由于存在本机二进制协议,我想知道是否有人使用过它。

我对其他任何优化和配置调整都不感兴趣-这是一个单独的问题。

我的问题是

  1. 是否存在直接使用Cassandra本机协议的map-reduce输入格式化程序的实现?

  2. 如果没有,那么编写自己的第一步是什么,例如使用DataStax驱动程序?

Cassandra 2.0.7包括用于CQL Hadoop类的本机协议类似物:

org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper

示例/ hadoop_cql3_word_count中的WordCount代码已更新为使用这些类。

引入此功能的JIRA是https://issues.apache.org/jira/browse/CASSANDRA-6311

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM