Python-正則表達式從HDFS獲取目錄名稱

Question

我試圖從子過程命令的結果中提取文件夾名稱。 結果為找到1個項目

drwxr-xr-x   - user user          0 2017-05-04 17:19 /user/oozie/share/lib/lib_20170406204755

我想提取lib_20170406204755 。 我能夠使用

process = subprocess.check_output(['hdfs','dfs','-ls','/user/oozie/share/lib'])
print process.split(' ')[-1].rstrip().split('/')[-1]

該文件夾始終為lib_timestamp

如何使用正則表達式執行此操作？

Answer 1

這里不需要正則表達式，您也可以使用split() ：

string = "drwxr-xr-x   - user user          0 2017-05-04 17:19 /user/oozie/share/lib/lib_20170406204755"

folder = string.split('/')[-1]
print(folder)
# lib_20170406204755

但是，如果您堅持：

[^/]+$

在Python ：

 import re string = "drwxr-xr-x - user user 0 2017-05-04 17:19 /user/oozie/share/lib/lib_20170406204755" rx = re.compile(r'[^/]+$') folder = rx.search(string).group(0) print(folder) # lib_20170406204755

參見regex101.com上的演示 。

Answer 2

這應該可以解決問題：

(?!/)(lib_\\d*)

此正則表達式正在搜索以lib_開頭且后跟一堆數字的內容，如果在結果上未找到類似的文件夾，則該內容就足夠了。

(?!/)只是為了確保該文件夾前面有一個/

例

Answer 3

一種干凈的方法是使用os.path模塊挑選路徑。

import os
import subprocess

output = subprocess.check_output(['hdfs','dfs','-ls','/user/oozie/share/lib'])

# there are 8 columns in the output, i.e. we need a maximum of 7 splits per line
output_table = [line.split(maxsplit=7) for line in output.splitlines()]

# we are interested in the basename of that path
filenames = [os.path.basename(row[7]) for row in output_table]

使用此測試輸入：

drwxr-xr-x   - user user          0 2017-05-04 17:19 /user/oozie/share/lib/lib_20170406204755
drwxr-xr-x   - user user          0 2017-05-04 17:19 /user/oozie/share/lib/lib_20110523212454

文件名將為['lib_20170406204755', 'lib_20110523212454']

Python-正則表達式從HDFS獲取目錄名稱

問題描述

3 個解決方案

解決方案1
1 2017-05-08 17:01:54

解決方案2
0 2017-05-08 16:47:06

解決方案3
0 2017-05-08 17:12:46

Python-正則表達式從HDFS獲取目錄名稱

問題描述

3 個解決方案

解決方案1 1 2017-05-08 17:01:54

解決方案2 0 2017-05-08 16:47:06

解決方案3 0 2017-05-08 17:12:46

解決方案1
1 2017-05-08 17:01:54

解決方案2
0 2017-05-08 16:47:06

解決方案3
0 2017-05-08 17:12:46