繁体 English 中英

如何确保在 Foundry Python Transforms 中构建的数据集中文件大小一致？

[英]How do I ensure consistent file sizes in datasets built in Foundry Python Transforms?

原文 2021-12-08 10:56:59 8 2 palantir-foundry/ foundry-code-repositories/ foundry-python-transform

我的 Foundry 转换在不同的运行中产生不同数量的数据，但我希望每个文件中的行数相似。 我可以使用DataFrame.count()然后合并/重新分区，但这需要计算完整的数据集，然后再次缓存或重新计算它。 Spark有办法解决这个问题吗？

2 个解决方案

您可以使用 spark.sql.files.maxRecordsPerFile 配置选项，方法是按照 @transform 的 output 设置它：

output.write_dataframe(
    output_df,
    options={"maxRecordsPerFile": "1000000"},
)

如果您唯一关心的是每个文件的记录数， proggeo的答案很有用。 但是，有时对数据进行分桶很有用，因此 Foundry 能够优化下游操作，例如轮廓分析或其他转换。

在这些情况下，您可以使用以下内容：

bucket_column = 'equipment_number'
num_files = 8
output_df = output_df.repartition(num_files, bucket_column)
output.write_dataframe(
    output_df,
    bucket_cols=[bucket_column],
    bucket_count=num_files,
)

如果您的存储桶列分布良好，这将有助于保持每个数据集文件的行数相似。

如何在 Foundry 的 SQL 转换中设置变量？

[英]How do I set a variable in Foundry's SQL Transforms?

如何确保我的 Foundry 作业以 static 分配运行？

[英]How do I ensure my Foundry job is running with static allocation?

如何在 Foundry 代码存储库中使用本地 IDE 进行 Java 转换？

[英]How do I use a local IDE for Java Transforms in Foundry Code Repositories?

如何在 Foundry 转换中读取和写入列描述和类型类？

[英]How can I read and write column descriptions and typeclasses in foundry transforms?

如何降低 Foundry 转换中的计算成本和浪费？

[英]How can I reduce compute costs and waste in my Foundry transforms?

在 Foundry Code Repositories 中，如何遍历目录中的所有数据集？

[英]In Foundry Code Repositories, how do I iterate over all datasets in a directory?

Foundry 转换的 Python 单元测试？

[英]Python unit tests for Foundry's transforms?

如何从 Blobster API 获取文件到 Foundry 转换？

[英]How do I get a file from the Blobster API into a Foundry Transform?

如何在代码工作簿中合并 Palantir Foundry 中的两个数据集？

[英]How do I union two datasets in Palantir Foundry within a code workbook?

如何在代码工作簿中加入 Palantir Foundry 中的两个数据集？

[英]How do I JOIN two datasets in Palantir Foundry within a code workbook?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在 Foundry 的 SQL 转换中设置变量？如何确保我的 Foundry 作业以 static 分配运行？如何在 Foundry 代码存储库中使用本地 IDE 进行 Java 转换？如何在 Foundry 转换中读取和写入列描述和类型类？如何降低 Foundry 转换中的计算成本和浪费？在 Foundry Code Repositories 中，如何遍历目录中的所有数据集？ Foundry 转换的 Python 单元测试？如何从 Blobster API 获取文件到 Foundry 转换？如何在代码工作簿中合并 Palantir Foundry 中的两个数据集？如何在代码工作簿中加入 Palantir Foundry 中的两个数据集？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM