![](/img/trans.png)
[英]Get list of files from hdfs (hadoop) directory using python script
[英]list of files available in hdfs recursive directory and sub directory lookup using python and generating pandas dataframe
是否可以使用python函數在HDFS下列出給定目錄(也可能包含子目錄)中的所有文件 (僅)(僅)? 最后,生成帶有所有可用文件列表的熊貓數據框?
我嘗試使用pywebhdfs,但它僅提供給定文件夾中的文件/目錄 -它不執行遞歸搜索/查找。
請指教。
有許多客戶端庫,例如hdfs3和hdfsCLI可以用於此目的。 如何通過hdfsCLI實現它的示例
from hdfs import Config
import posixpath as psp
client = Config().get_client('dev')
fnames = client.list('/cdc')
print(fnames)
fpaths = [
psp.join(dpath, fname)
for dpath, _, fnames in client.walk('/cdc')
for fname in fnames
]
print(fpaths)
可以使用主目錄中的.hdfscli.cfg
文件(或通過HDFSCLI_CONFIG
環境變量配置的其他路徑)來實現客戶端連接。配置文件的示例如下:
[global]
default.alias = dev
[dev.alias]
url = http://<host>:<port>
您可能還選擇使用InsecureClient
獲得連接
請參閱https://hdfscli.readthedocs.io/en/latest/index.html以獲得使用和下載說明。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.