簡體   English   中英

在hdfs中的文件上使用鑲木地板工具

[英]Using parquet tools on files in hdfs

我下載並構建了https://github.com/apache/parquet-mr的 parquet-1.5.0。

我現在想在hdfs中的鑲木地板文件上運行一些命令。 我嘗試了這個:

cd ~/parquet-mr/parquet-tools/src/main/scripts
./parquet-tools meta hdfs://localhost/my_parquet_file.parquet

我得到:

錯誤:找不到或加載主類parquet.tools.Main

該腳本是基於parquet-tools-<version>.jar位於腳本文件本身旁邊的lib目錄中的假設而建立的,如下所示:

$ find -type f
./parquet-tools
./lib/parquet-tools-1.10.1-SNAPSHOT.jar

您可以通過從parquet-mr git repo的根目錄發出以下命令來設置這樣的文件布局(當然,可以有許多替代方法和安裝位置):

mkdir -p ~/.local/share/parquet-tools/lib
cp parquet-tools/src/main/scripts/parquet-tools ~/.local/share/parquet-tools/
cp parquet-tools/target/parquet-tools-1.5.0.jar ~/.local/share/parquet-tools/lib

之后,您可以運行~/.local/share/parquet-tools/parquet-tools (雖然我使用1.10.1-SNAPSHOT版本而不是1.5.0對此進行了測試。)

下載jar從maven repo或您選擇的任何位置下載jar。 只是谷歌它。 在撰寫本文時,我可以從這里獲得鑲木地板工具。

如果您登錄了hadoop框:

wget http://central.maven.org/maven2/org/apache/parquet/parquet-tools/1.9.0/parquet-tools-1.9.0.jar

此鏈接可能會在幾天后停止工作。 因此,從maven repo獲取新鏈接。

構建jar如果無法下載jar,則也可以從源代碼構建jar。 克隆parquet-mr repo並從源代碼構建jar

git clone https://github.com/apache/parquet-mr

mvn清潔包裝

注意:您需要在盒子上使用Maven來構建源。

讀取實木復合地板文件您可以使用以下命令查看實木復合地板文件的內容-

檢查s3 / hdfs文件的架構:

hadoop jar parquet-tools-1.9.0.jar schema s3://path/to/file.snappy.parquet

hadoop jar parquet-tools-1.9.0.jar schema hdfs://path/to/file.snappy.parquet

頭文件內容:

hadoop jar parquet-tools-1.9.0.jar head -n5 s3://path/to/file.snappy.parquet

檢查本地文件的內容:

java -jar parquet-tools-1.9.0.jar head -n5 /tmp/path/to/file.snappy.parquet

java -jar parquet-tools-1.9.0.jar schema /tmp/path/to/file.snappy.parquet

更多命令:

hadoop jar parquet-tools-1.9.0.jar –help

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM