簡體   English   中英

數據結構(大數據)的最佳設計

[英]Best design for data structure (big data)

我的頁面很多(5.000.000.000+),我需要構建一個反向鏈接結構。 對於每個頁面,我需要提取所有出站鏈接。

例如用於原始數據。

www.mypage1.com = outbound1, outbound2, outbound3
www.mypage2.com = ouput4, outbound2, outbound1

預期結果。

outbound1=www.mypage1.com,www.mypage2.com
outbound2=www.mypage1.com,www.mypage2.com
outbound3=www.mypage1.com
outbound4=www.mypage2.com

實際上,我正在使用hadoop進行map-reduce,並且工作正常。 但是經過一番分析,我意識到某些網址至少有500mb的入站鏈接信息。

而5.000.0000.000頁乘以500 mb是很多數據...

每個URL的長度為100個字節,因此,我的第一個提示是進行某種哈希處理以減小每個URL的大小。 但這會增加流程開銷,因為我們需要一個服務來獲取給定url和反之亦然的哈希值。

那么,您認為最好的方法是什么? 有任何想法嗎?

盡管單人團隊的任務不切實際,但我可以建議:

  1. 根據“低功耗”的說法,500mb將只有很少的鏈接,其中大多數將有一小部分鏈接。 因此,您應該重新估算您的鏈接分配。
  2. 要壓縮鏈接,您可以在還原的鏈接(即com.google.mail)上使用trie。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM