簡體   English   中英

Hadoop 字數

[英]Hadoop word count

對於 Hadoop 中的字數統計示例,在 map 函數中,它將 word 和 1 作為中間結果寫入文件,並使用 reduce 進行求和。 為什么不在mapper函數中使用hashmap,key是word,value是count,如果一個word在1個文件spit中出現不止一次,這個word的值就會相加。 在mapper函數的最后,寫出結果。

這樣,它比原來的設計(不使用合路器)更有效率,雖然使用合路器,效率應該是相等的。

有什么建議嗎?

是的,您也可以使用 hashmap。 但是在設計解決方案時,您需要考慮最壞的情況。

通常,塊的大小為 128 MB,並考慮到沒有或很少重復的小詞(就字長而言)。 在這種情況下,您將有很多單詞,因此沒有。 HashMap 中的條目數會增加,消耗更多的內存。 你需要考慮到在同一個數據節點上可能有許多不同的作業在運行,所以這個 HashMap 消耗更多的 RAM 最終也會減慢其他作業的速度。 此外,當 HashMap 的大小增加時,它必須執行重新散列,這為您的作業執行增加了更多時間。

我知道這是一篇舊帖子,但對於將來尋求 Hadoop 幫助的人,也許可以查看此問題以獲取另一個參考: Hadoop 字數:接收以字母“c”開頭的單詞總數

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM