簡體 English 中英

Fiware-Cosmos MapReduce

[英]Fiware-Cosmos MapReduce

原文 2015-03-03 16:49:53 1 1 hadoop/ mapreduce/ fiware/ fiware-cygnus

我有一個關於這里解釋的MapReduce示例的問題：

http://forge.fiware.org/plugins/mediawiki/wiki/fiware/index.php/BigData_Analysis_-_Quick_Start_for_Programmers

它確實是hadoop MapReduce（WordCount）最常見的例子。

我能夠在Cosmos的全局實例中執行它沒有任何問題，但即使我給它一個小輸入（一個有2或3行的文件），執行它需要很多（半分鍾或多或少）。 我認為這是它的正常行為，但我的問題是：¿為什么即使是小輸入它也需要這么長時間？

我想這種方法可以通過更大的數據集增加其有效性，其中這種最小延遲可以忽略不計。

1 個解決方案

首先，您必須考慮到FIWARE LAB的當前Cosmos實例是Hadoop的共享實例，因此許多其他用戶可能同時執行MapReduce作業，從而導致計算資源的“競爭”。

據說，MapReduce專為大型數據集和larga數據文件而設計。 它增加了很多開銷，在處理幾行時沒有必要（因為有幾行你不需要MapReduce！:)但是當這些行是thounsands甚至數百萬行時，它會有很大的幫助。 在這些情況下，處理時間與數據大小成正比，當然，但不是比如1：1比例。