數據結構（大數據）的最佳設計

Question

我的頁面很多（5.000.000.000+），我需要構建一個反向鏈接結構。 對於每個頁面，我需要提取所有出站鏈接。

例如用於原始數據。

www.mypage1.com = outbound1, outbound2, outbound3
www.mypage2.com = ouput4, outbound2, outbound1

預期結果。

outbound1=www.mypage1.com,www.mypage2.com
outbound2=www.mypage1.com,www.mypage2.com
outbound3=www.mypage1.com
outbound4=www.mypage2.com

實際上，我正在使用hadoop進行map-reduce，並且工作正常。 但是經過一番分析，我意識到某些網址至少有500mb的入站鏈接信息。

而5.000.0000.000頁乘以500 mb是很多數據...

每個URL的長度為100個字節，因此，我的第一個提示是進行某種哈希處理以減小每個URL的大小。 但這會增加流程開銷，因為我們需要一個服務來獲取給定url和反之亦然的哈希值。

那么，您認為最好的方法是什么？ 有任何想法嗎？

Answer 1

盡管單人團隊的任務不切實際，但我可以建議：