簡體 English 中英

“分區數據”是什么意思 - S3

[英]what does it mean "partitioned data" - S3

原文 2022-03-07 09:30:08 4 2 amazon-web-services/ apache-spark/ amazon-s3/ amazon-emr

我想使用 Netflix 的 outputCommitter（將 Spark 與 Amazon EMR 結合使用）。 在 README 中有 2 個選項：

S3DirectoryOutputCommitter - 用於將未分區數據寫入 S3 並解決沖突。
S3PartitionedOutputCommitter - 用於將分區數據寫入 S3 並解決沖突。

我試圖理解這些差異，但沒有成功。 有人可以解釋什么是 s3 中的“分區數據”嗎？

2 個解決方案

根據 hadoop 文檔，“這個提交器是“目錄”提交器的擴展，它有一個特殊的沖突解決策略，旨在支持將新數據插入到使用 Hive 的分區策略構建的目錄樹中的操作：樹的不同級別代表不同的列”

在 hadoop 文檔中搜索完整的詳細信息。

請注意，EMR 提交者不是 ASF S3A 提交者，因此請采用不同的配置選項並擁有自己的文檔。 但由於他們的工作是 .netflix 工作的重新實現，他們應該在這里做同樣的事情

我對outputCommitter不熟悉，Amazon S3 中的分區數據通常是指在目錄之間拆分文件以減少需要從磁盤讀取的數據量。

例如：

/data/month=1/
/data/month=2/
/data/month=3/
...

如果使用WHERE month=1之類的子句對數據運行 Hive 類型的查詢，那么它只需要在month=1/子目錄中查找，從而節省 2/3 的磁盤訪問。

非雙棧在 s3 的上下文中意味着什么？

[英]What does non-dualstack mean in the context of s3?

如何基於S3分區數據在snowflake中創建外部表

[英]How to Create external table in snowflake based on S3 partitioned data

PyArrow：如何將數據從 mongo 批處理到 S3 中的分區鑲木地板

[英]PyArrow: How to batch data from mongo into partitioned parquet in S3

aws S3 ListObjectsV2 api 中的 start-after 是什么意思？

[英]What does start-after in aws S3 ListObjectsV2 api mean?

如何使用 python 從 AWS S3 讀取在列上分區的鑲木地板文件數據

[英]How to read parquet file data partitioned on column from AWS S3 using python

使用 s3 和膠水時無法以冰山格式保存分區數據

[英]Unable to save partitioned data in in iceberg format when using s3 and glue

密封 Azure Data Explorer 范圍是什么意思？

[英]What does it mean for an Azure Data Explorer extent to be sealed?

增量表：僅從 S3 存儲桶復制到特定的分區文件夾

[英]Delta table : COPY INTO only specific partitioned folders from S3 bucket

在 AWS Glue ETL 作業中從 S3 加載分區的 json 文件

[英]Load partitioned json files from S3 in AWS Glue ETL jobs

控制 S3 的最佳方式是什么？

[英]What's the best way to control S3?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 非雙棧在 s3 的上下文中意味着什么？如何基於S3分區數據在snowflake中創建外部表 PyArrow：如何將數據從 mongo 批處理到 S3 中的分區鑲木地板 aws S3 ListObjectsV2 api 中的 start-after 是什么意思？如何使用 python 從 AWS S3 讀取在列上分區的鑲木地板文件數據使用 s3 和膠水時無法以冰山格式保存分區數據密封 Azure Data Explorer 范圍是什么意思？增量表：僅從 S3 存儲桶復制到特定的分區文件夾在 AWS Glue ETL 作業中從 S3 加載分區的 json 文件控制 S3 的最佳方式是什么？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM