如何使用python API Pydoop從Hadoop集群中獲取實際數據（在縮小地圖后）？

Question

我正在使用python API（pydoop）來映射減少HDFS文件，但我想知道如何使用pydoop或使用python的任何其他技術來檢索原始數據。

Answer 1

MapReduce應用（或者與Pydoop或通過標准的Hadoop的Java API運行）寫自己在用戶指定的目錄輸出，為每個創建一個文件（在地圖只有作業的特殊情況或一個每個地圖的任務）減少任務： part-r-00000 ， part-r-00001等。您可以使用Pydoop的HDFS API查找這些文件並讀取其內容：

import pydoop.hdfs as hdfs

MR_OUT_DIR = "hdfs://localhost:9000/user/foo/mr_output"

data = []
for path in hdfs.ls(MR_OUT_DIR):
    if hdfs.path.basename(path).startswith("part-"):
        with hdfs.open(path) as f:
            data.append(f.read())

如何使用python API Pydoop從Hadoop集群中獲取實際數據（在縮小地圖后）？

問題描述

1 個解決方案

解決方案1
0 2019-02-07 09:45:35

如何使用python API Pydoop從Hadoop集群中獲取實際數據（在縮小地圖后）？

問題描述

1 個解決方案

解決方案1 0 2019-02-07 09:45:35

解決方案1
0 2019-02-07 09:45:35