如何使用正則表達式在sc.textFile中包含/排除一些輸入文件？

Question

我試圖使用文件中的Apache spark過濾掉特定文件的日期到RDD函數sc.textFile() 。

我試圖做以下事情：

sc.textFile("/user/Orders/201507(2[7-9]{1}|3[0-1]{1})*")

這應符合以下要求：

/user/Orders/201507270010033.gz
/user/Orders/201507300060052.gz

知道怎么做到這一點？

Answer 1

看看接受的答案，它似乎使用某種形式的glob語法。 它還揭示了API是Hadoop的FileInputFormat的曝光。

搜索顯示提供給FileInputFormat的addInputPath或setInputPath路徑“可以表示文件，目錄，或者使用glob，表示文件和目錄的集合” 。 也許， SparkContext也使用這些API來設置路徑。

glob的語法包括：

按照接受的答案中的示例，可以將您的路徑寫為：

sc.textFile("/user/Orders/2015072[7-9]*,/user/Orders/2015073[0-1]*")

目前尚不清楚如何使用交替語法，因為逗號用於分隔路徑列表（如上所示）。 根據zero323的評論，沒有必要逃脫：

sc.textFile("/user/Orders/201507{2[7-9],3[0-1]}*")