如何使用 Python pickle 將文件轉儲到 Hadoop HDFS 目錄？

Question

我在包含我的 Python (2.7) 類的目錄中的 VM 上。 我正在嘗試將我的類的一個實例腌制到我的 HDFS 中的一個目錄中。

我正在嘗試按照以下方式做一些事情：

import pickle

my_obj = MyClass() # the class instance that I want to pickle

with open('hdfs://domain.example.com/path/to/directory/') as hdfs_loc:
    pickle.dump(my_obj, hdfs_loc)

根據我所做的研究，我認為像蛇咬這樣的東西可能會有所幫助……但是有人有更具體的建議嗎？

Answer 1

如果你使用 PySpark，那么你可以使用saveAsPickleFile方法：

temp_rdd = sc.parallelize(my_obj)
temp_rdd.coalesce(1).saveAsPickleFile("/test/tmp/data/destination.pickle")

Answer 2

如果您在具有足夠權限的 Jupyter 筆記本中運行，這是一個解決方法：

import pickle

my_obj = MyClass() # the class instance that I want to pickle
local_filename = "pickle.p"
hdfs_loc = "//domain.example.com/path/to/directory/"
with open(local_filename, 'wb') as f:
    pickle.dump(my_obj, f)
!!hdfs dfs -copyFromLocal $local_filename  $hdfs_loc

Answer 3

您可以使用PyArrow將 Pickle 對象轉儲到 HDFS：

import pickle
import pyarrow as pa

my_obj = MyClass() # the class instance that I want to pickle

hdfs = pa.hdfs.connect()
with hdfs.open('hdfs://domain.example.com/path/to/directory/filename.pkl', 'wb') as hdfs_file:
    pickle.dump(my_obj, hdfs_file)

如何使用 Python pickle 將文件轉儲到 Hadoop HDFS 目錄？

問題描述

3 個解決方案

解決方案1
2 2021-02-14 15:16:15

解決方案2
1 2017-09-21 13:20:04

解決方案3
0 2022-05-13 12:56:41

如何使用 Python pickle 將文件轉儲到 Hadoop HDFS 目錄？

問題描述

3 個解決方案

解決方案1 2 2021-02-14 15:16:15

解決方案2 1 2017-09-21 13:20:04

解決方案3 0 2022-05-13 12:56:41

解決方案1
2 2021-02-14 15:16:15

解決方案2
1 2017-09-21 13:20:04

解決方案3
0 2022-05-13 12:56:41