[英]Custom map-reduce input formatter for Cassandra using native protocol
我正在使用Apache Cassandra(1.2)和Apache Map-Reduce處理一些數據。 目前,我使用org.apache.cassandra.hadoop.cql3中的 CqlPagingInputFormat
。 該提供程序使用Thrift提取數據。 Thrift似乎很慢(300M記錄,在3個節點的群集中需要8多個小時才能讀取),並且由於存在本機二進制協議,我想知道是否有人使用過它。
我對其他任何優化和配置調整都不感興趣-這是一個單獨的問題。
我的問題是
是否存在直接使用Cassandra本機協議的map-reduce輸入格式化程序的實現?
如果沒有,那么編寫自己的第一步是什么,例如使用DataStax驅動程序?
Cassandra 2.0.7包括用於CQL Hadoop類的本機協議類似物:
org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper
示例/ hadoop_cql3_word_count中的WordCount代碼已更新為使用這些類。
引入此功能的JIRA是https://issues.apache.org/jira/browse/CASSANDRA-6311
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.