簡體 English 中英

使用本機協議的Cassandra的自定義map-reduce輸入格式化程序

[英]Custom map-reduce input formatter for Cassandra using native protocol

原文 2014-04-21 12:45:22 2 1 java/ hadoop/ mapreduce/ cassandra/ datastax-java-driver

我正在使用Apache Cassandra（1.2）和Apache Map-Reduce處理一些數據。 目前，我使用org.apache.cassandra.hadoop.cql3中的 CqlPagingInputFormat 。 該提供程序使用Thrift提取數據。 Thrift似乎很慢（300M記錄，在3個節點的群集中需要8多個小時才能讀取），並且由於存在本機二進制協議，我想知道是否有人使用過它。

我對其他任何優化和配置調整都不感興趣-這是一個單獨的問題。

我的問題是

是否存在直接使用Cassandra本機協議的map-reduce輸入格式化程序的實現？
如果沒有，那么編寫自己的第一步是什么，例如使用DataStax驅動程序？

1 個解決方案

Cassandra 2.0.7包括用於CQL Hadoop類的本機協議類似物：

org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper

示例/ hadoop_cql3_word_count中的WordCount代碼已更新為使用這些類。

引入此功能的JIRA是https://issues.apache.org/jira/browse/CASSANDRA-6311

使用map-reduce / aggregation的MongoDB查詢？

[英]MongoDB query using map-reduce/Aggregation?

在Map-Reduce中改組

[英]Shuffling in Map-Reduce

即時將輸入數據添加到Hadoop Map-Reduce Job？

[英]Add input data on the fly to Hadoop Map-Reduce Job?

我可以在map-reduce中編寫自定義Java方法嗎？

[英]Can I write custom java methods inside map-reduce?

如何將多個輸入格式文件傳遞給map-reduce作業？

[英]How to pass multiple input format files to map-reduce job?

映射減少編程錯誤

[英]Map-Reduce Programming Error

Map-Reduce中的二級排序

[英]Secondary sorting in Map-Reduce

Hadoop Map-Reduce。記錄閱讀器

[英]Hadoop Map-Reduce . RecordReader

映射減少實例化異常

[英]Map-reduce Instantiation Exception

使用Hadoop Map-Reduce去除不可打印的字符

[英]Strip non-printable characters using Hadoop Map-Reduce

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用map-reduce / aggregation的MongoDB查詢？在Map-Reduce中改組即時將輸入數據添加到Hadoop Map-Reduce Job？我可以在map-reduce中編寫自定義Java方法嗎？如何將多個輸入格式文件傳遞給map-reduce作業？映射減少編程錯誤 Map-Reduce中的二級排序 Hadoop Map-Reduce。記錄閱讀器映射減少實例化異常使用Hadoop Map-Reduce去除不可打印的字符

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM