簡體 English 中英

如何設計特殊的MapReduce倒排索引？

[英]How to design a special MapReduce inverted index?

原文 2015-11-17 18:46:44 3 1 java/ hadoop/ mapreduce/ bigdata

在這種情況下，我有很多日志。 每個日志都包含時間，IP，URL，內容等。

問題1：我想做的是確定給您一個單詞，例如“ google”，告訴我哪個日志的內容包含該單詞 。

問題2：我無法確定我喜歡哪個單詞，所以給我整個倒排索引答案。

因此，我的問題是：對於問題1，如何設計映射器和化簡器？

我可以使用mapper拆分log的內容，並且mapper的輸出是很多kv對<'word', log_id> 。 減速器應該遍歷所有這些答案，如果遇到諸如<'google', log_id>類的對<'google', log_id>其輸出。
而且我還可以使用mapper遍歷整個內容，如果滿足單詞“ google”，則輸出為<'google', log_id> ，如果滿足其他單詞，則跳過。 如果映射器不符合特定的單詞，則它不輸出任何東西;在這種情況下，reduce器僅輸出它，不需要進行處理。

那你能告訴我哪個更好嗎？

1 個解決方案

這兩個做不同的事情。 當您要查找一個確切的單詞時，第二個實現適用於問題1。 當您不知道要查找的單詞時，第一個實現適用於問題2。 這些是具有不同解決方案的不同問題。

如果您只是想解決問題1，那么您的第二個算法將可以正常工作並且運行更快。

使用MapReduce的倒排索引

[英]Inverted Index with MapReduce

MapReduce倒排索引程序

[英]MapReduce Inverted Index Program

如何在Java中創建倒排索引

[英]how to create inverted index in java

如何將反向索引存儲到二進制文件中？

[英]How to store an inverted index in to binary file?

MongoDB中的位置倒排索引

[英]Positional inverted index in MongoDB

hadoop倒置索引計數

[英]hadoop Inverted index count

Java倒排索引程序

[英]Java Inverted Index program

優化倒排索引Java

[英]Optimize inverted index Java

使用 ehcache 的倒排索引

[英]Inverted index with ehcache

如何將倒排文檔索引存儲在磁盤上？

[英]How can I store the inverted document index on a disk?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用MapReduce的倒排索引 MapReduce倒排索引程序如何在Java中創建倒排索引如何將反向索引存儲到二進制文件中？ MongoDB中的位置倒排索引 hadoop倒置索引計數 Java倒排索引程序優化倒排索引Java 使用 ehcache 的倒排索引如何將倒排文檔索引存儲在磁盤上？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM