簡體   English   中英

使用python並生成pandas dataframe在hdfs遞歸目錄和子目錄查找中可用的文件列表

[英]list of files available in hdfs recursive directory and sub directory lookup using python and generating pandas dataframe

是否可以使用python函數在HDFS下列出給定目錄(也可能包含子目錄)中的所有文件 (僅)(僅)? 最后,生成帶有所有可用文件列表的熊貓數據框?

我嘗試使用pywebhdfs,但它僅提供給定文件夾中的文件/目錄 -它不執行遞歸搜索/查找。

請指教。

有許多客戶端庫,例如hdfs3和hdfsCLI可以用於此目的。 如何通過hdfsCLI實現它的示例

from hdfs import Config
import posixpath as psp

client = Config().get_client('dev')

fnames = client.list('/cdc')
print(fnames)

fpaths = [
  psp.join(dpath, fname)
  for dpath, _, fnames in client.walk('/cdc')
  for fname in fnames
]

print(fpaths)

可以使用主目錄中的.hdfscli.cfg文件(或通過HDFSCLI_CONFIG環境變量配置的其他路徑)來實現客戶端連接。配置文件的示例如下:

[global]
default.alias = dev

[dev.alias]
url = http://<host>:<port>

您可能還選擇使用InsecureClient獲得連接

請參閱https://hdfscli.readthedocs.io/en/latest/index.html以獲得使用和下載說明。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM