簡體   English   中英

對於 HDFS 文件夾,在幾分鍾內處理數百個下載請求的最有效解決方案是什么

[英]What is the most efficient solution for hundreds download requests in minute for HDFS folder

在我的公司,我們有一個不斷學習的過程。 每 5-10 分鍾我們在 HDFS 中創建一個新模型。 模型是幾個文件的文件夾:

  1. 型號 ~ 1G(二進制文件)
  2. 模型元數據 1K(文本文件)
  3. 模型特征 1K(csv 文件)...

另一方面,我們有數百個模型服務實例,需要每 5-10 分鍾將模型下載到本地文件系統並從中提供服務。 目前,我們正在使用來自我們的服務(java FileSystem 客戶端)的 WebFS,但它可能會為我們的 Hadoop 集群創建負載,因為它將請求重定向到具體的數據節點。

我們考慮使用 HTTPFs 服務。 它有緩存功能嗎? 那么第一個請求會得到一個文件夾來服務內存,接下來的請求會使用已經下載的結果?

哪些其他技術/解決方案可用於此類用例?

我們找到了一個很好的解決方案。

它可用於 Hadoop 以減少讀取負載或用於 Google/S3 存儲桶以降低成本。

我們簡單地設置了幾個 Ngnix 服務器,並將它們配置為具有文件緩存 2 分鍾的代理。

這樣,只有 Ngnix 機器才會從 Hadoop 集群下載數據。

並且所有服務機器(可能有數百台)將從 Nginx 服務器中提取數據,這些數據已經緩存在那里

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM