[英]Best design for data structure (big data)
我的頁面很多(5.000.000.000+),我需要構建一個反向鏈接結構。 對於每個頁面,我需要提取所有出站鏈接。
例如用於原始數據。
www.mypage1.com = outbound1, outbound2, outbound3
www.mypage2.com = ouput4, outbound2, outbound1
預期結果。
outbound1=www.mypage1.com,www.mypage2.com
outbound2=www.mypage1.com,www.mypage2.com
outbound3=www.mypage1.com
outbound4=www.mypage2.com
實際上,我正在使用hadoop進行map-reduce,並且工作正常。 但是經過一番分析,我意識到某些網址至少有500mb的入站鏈接信息。
而5.000.0000.000頁乘以500 mb是很多數據...
每個URL的長度為100個字節,因此,我的第一個提示是進行某種哈希處理以減小每個URL的大小。 但這會增加流程開銷,因為我們需要一個服務來獲取給定url和反之亦然的哈希值。
那么,您認為最好的方法是什么? 有任何想法嗎?
盡管單人團隊的任務不切實際,但我可以建議:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.