簡體   English   中英

使用本機協議的Cassandra的自定義map-reduce輸入格式化程序

[英]Custom map-reduce input formatter for Cassandra using native protocol

我正在使用Apache Cassandra(1.2)和Apache Map-Reduce處理一些數據。 目前,我使用org.apache.cassandra.hadoop.cql3中的 CqlPagingInputFormat 該提供程序使用Thrift提取數據。 Thrift似乎很慢(300M記錄,在3個節點的群集中需要8多個小時才能讀取),並且由於存在本機二進制協議,我想知道是否有人使用過它。

我對其他任何優化和配置調整都不感興趣-這是一個單獨的問題。

我的問題是

  1. 是否存在直接使用Cassandra本機協議的map-reduce輸入格式化程序的實現?

  2. 如果沒有,那么編寫自己的第一步是什么,例如使用DataStax驅動程序?

Cassandra 2.0.7包括用於CQL Hadoop類的本機協議類似物:

org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper

示例/ hadoop_cql3_word_count中的WordCount代碼已更新為使用這些類。

引入此功能的JIRA是https://issues.apache.org/jira/browse/CASSANDRA-6311

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM