[英]Using parquet tools on files in hdfs
我下載並構建了https://github.com/apache/parquet-mr的 parquet-1.5.0。
我現在想在hdfs中的鑲木地板文件上運行一些命令。 我嘗試了這個:
cd ~/parquet-mr/parquet-tools/src/main/scripts
./parquet-tools meta hdfs://localhost/my_parquet_file.parquet
我得到:
錯誤:找不到或加載主類parquet.tools.Main
該腳本是基於parquet-tools-<version>.jar
位於腳本文件本身旁邊的lib
目錄中的假設而建立的,如下所示:
$ find -type f
./parquet-tools
./lib/parquet-tools-1.10.1-SNAPSHOT.jar
您可以通過從parquet-mr git repo的根目錄發出以下命令來設置這樣的文件布局(當然,可以有許多替代方法和安裝位置):
mkdir -p ~/.local/share/parquet-tools/lib
cp parquet-tools/src/main/scripts/parquet-tools ~/.local/share/parquet-tools/
cp parquet-tools/target/parquet-tools-1.5.0.jar ~/.local/share/parquet-tools/lib
之后,您可以運行~/.local/share/parquet-tools/parquet-tools
。 (雖然我使用1.10.1-SNAPSHOT版本而不是1.5.0對此進行了測試。)
下載jar從maven repo或您選擇的任何位置下載jar。 只是谷歌它。 在撰寫本文時,我可以從這里獲得鑲木地板工具。
如果您登錄了hadoop框:
wget http://central.maven.org/maven2/org/apache/parquet/parquet-tools/1.9.0/parquet-tools-1.9.0.jar
此鏈接可能會在幾天后停止工作。 因此,從maven repo獲取新鏈接。
構建jar如果無法下載jar,則也可以從源代碼構建jar。 克隆parquet-mr repo並從源代碼構建jar
git clone https://github.com/apache/parquet-mr
mvn清潔包裝
注意:您需要在盒子上使用Maven來構建源。
讀取實木復合地板文件您可以使用以下命令查看實木復合地板文件的內容-
檢查s3 / hdfs文件的架構:
hadoop jar parquet-tools-1.9.0.jar schema s3://path/to/file.snappy.parquet
hadoop jar parquet-tools-1.9.0.jar schema hdfs://path/to/file.snappy.parquet
頭文件內容:
hadoop jar parquet-tools-1.9.0.jar head -n5 s3://path/to/file.snappy.parquet
檢查本地文件的內容:
java -jar parquet-tools-1.9.0.jar head -n5 /tmp/path/to/file.snappy.parquet
java -jar parquet-tools-1.9.0.jar schema /tmp/path/to/file.snappy.parquet
更多命令:
hadoop jar parquet-tools-1.9.0.jar –help
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.