[英]How to design a special MapReduce inverted index?
在這種情況下,我有很多日志。 每個日志都包含時間,IP,URL,內容等。
問題1:我想做的是確定給您一個單詞,例如“ google”,告訴我哪個日志的內容包含該單詞 。
問題2:我無法確定我喜歡哪個單詞,所以給我整個倒排索引答案。
因此,我的問題是:對於問題1,如何設計映射器和化簡器?
<'word', log_id>
。 減速器應該遍歷所有這些答案,如果遇到諸如<'google', log_id>
類的對<'google', log_id>
其輸出。 <'google', log_id>
,如果滿足其他單詞,則跳過。 如果映射器不符合特定的單詞,則它不輸出任何東西;在這種情況下,reduce器僅輸出它,不需要進行處理。 那你能告訴我哪個更好嗎?
這兩個做不同的事情。 當您要查找一個確切的單詞時,第二個實現適用於問題1。 當您不知道要查找的單詞時,第一個實現適用於問題2。 這些是具有不同解決方案的不同問題。
如果您只是想解決問題1,那么您的第二個算法將可以正常工作並且運行更快。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.