繁体   English   中英

使用 Python 如何获取 HDFS 文件夹中所有文件的列表?

[英]Using Python how to get list of all files in a HDFS folder?

我想在数据框中使用 Python 或最好是 Pandas 返回 HDFS 文件夹中所有文件的列表。 我看过 subprocess.Popen ,这可能是最好的方法,但如果是的话,有没有办法解析出所有的噪音,只返回文件名?

hdfs 模块因无法获取配置选项而失效。 试过 subprocess.Popen 但它返回了很多无关紧要的东西。

一旦你命名了路径

from pathlib import Path

folder = Path("/tmp/favorite_folder/")

那么这只是对一些模式进行通配的问题,比如folder.glob folder.glob("*.csv") 使用通配符获取单个级别的所有名称:

print(folder.glob("*"))

要递归所有级别,您可能希望依赖os.walk()

https://docs.python.org/3/library/os.html#os.walk

或者,使用递归 glob 模式: folder.glob("**/*.csv")

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM