Hadoop流訪問目錄中的文件

Question

我想訪問Hadoop中的一個目錄（通過Python流）並循環遍歷其圖像文件，計算我的映射器中每個的哈希值。 以下邏輯是否有意義（而不是硬編碼，我可以將目錄作為例如-input傳遞給Hadoop）嗎？

lotsdir= 'hdfs://localhost:54310/user/hduser/randomimages/' 
import glob
path = lotsdir + '*.*'
files = glob.glob(path)
files.sort()

imagehashes={}
for fname in files:
    imagehashes[fname]=pHash.imagehash( fname )

Answer 1

是的，邏輯是有道理的。

但由於您的輸入文件不是文本格式，因此很可能會出現性能問題，因此無法在HDFS上正確分割它們。

希望Hadoop提供多種方法來解決該問題。 例如，您可以：

將您的圖像文件轉換為SequenceFile並將它們存儲到HDFS中
編寫自己的InputFormat ， OutputFormat和RecordReader ，以便正確分割它們

Answer 2

您還可以嘗試將圖像文件內容打印為編碼字符串，如下所示：[[1,2,3]，[4,5,6]]變為1：2：3：4：5：6 in標准輸入。 然后你的映射器可以從標准輸入讀取並解碼（因為你已經知道圖像尺寸）它可以回到一個numpy數組（只有幾行到數字 - extarction-ndarray-reshape）代碼。 這基本上成了你的形象。 我正在開展一個類似的項目，並且遇到了這些問題。 希望對你有效。

Hadoop流訪問目錄中的文件

問題描述

2 個解決方案

解決方案1
0 2015-06-08 07:30:24

解決方案2
0 2019-04-17 15:24:33

Hadoop流訪問目錄中的文件

問題描述

2 個解決方案

解決方案1 0 2015-06-08 07:30:24

解決方案2 0 2019-04-17 15:24:33

解決方案1
0 2015-06-08 07:30:24

解決方案2
0 2019-04-17 15:24:33