簡體   English   中英

如何設計特殊的MapReduce倒排索引?

[英]How to design a special MapReduce inverted index?

在這種情況下,我有很多日志。 每個日志都包含時間,IP,URL,內容等。

問題1:我想做的是確定給您一個單詞,例如“ google”,告訴我哪個日志的內容包含該單詞

問題2:我無法確定我喜歡哪個單詞,所以給我整個倒排索引答案。

因此,我的問題是:對於問題1,如何設計映射器和化簡器?

  • 我可以使用mapper拆分log的內容,並且mapper的輸出是很多kv對<'word', log_id> 減速器應該遍歷所有這些答案,如果遇到諸如<'google', log_id>類的對<'google', log_id>其輸出。
  • 而且我還可以使用mapper遍歷整個內容,如果滿足單詞“ google”,則輸出為<'google', log_id> ,如果滿足其他單詞,則跳過。 如果映射器不符合特定的單詞,則它不輸出任何東西;在這種情況下,reduce器僅輸出它,不需要進行處理。

那你能告訴我哪個更好嗎?

這兩個做不同的事情。 當您要查找一個確切的單詞時,第二個實現適用於問題1。 當您不知道要查找的單詞時,第一個實現適用於問題2。 這些是具有不同解決方案的不同問題。

如果您只是想解決問題1,那么您的第二個算法將可以正常工作並且運行更快。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM