cost 118 ms
Palantir foundry 代码工作簿,从数据集中导出单个 xml - Palantir foundry code workbook, export individual xmls from dataset

我有一个数据集,它有一个 xml 列,我正在尝试使用 codeworkbook 将单个 xml 导出为文件名在另一列中的文件 我使用下面的代码过滤了我想要的行 它工作到这里。 现在对于最后一部分,我在 python 任务中尝试了这个,但抱怨参数(我应该错误地设置它)。 但即使它有效,我认为它也将作 ...

如何对 boolean 列的 Spark dataframe 使用 when 和 Otherwise 语句? - How to use when and Otherwise statement for a Spark dataframe by boolean columns?

我有一个包含三列的数据集,col 1:country(String),col 2:threshold_1(bool),col 3:threshold_2(bool) 我正在尝试使用此逻辑创建一个新列,但出现错误我正在为此使用 Palantir 代码工作簿,谁能告诉我我在这里缺少什么? ...

在 Foundry 中,如何使用每个值只有 1 个镶木地板文件的 Hive 分区? - In Foundry, how can I Hive partition with only 1 parquet file per value?

我希望提高运行过滤逻辑的性能。 为此,想法是通过将分区列设置为数据集中的列(称为splittable_column )来进行配置单元分区设置。 我检查了可splitting_column列的基数很低,如果我从 split_column 中对每个值进行子集化,最终结果是一个 800MB 的镶木地板文 ...

修改对代码工作簿数据集的下游引用以指向使用帮助程序创建的新代码存储库数据集的最佳方法? - Best way to modify downstream references to a code workbook dataset to point to the new code repository dataset created using helper?

在现有代码工作簿中使用“Export to Code Repository Helper”工具时,修改下游依赖项以指向新创建的 Code Repository 数据集的最有效方法是什么? 我们要修改所有下游依赖项,而不是子集。 ...

在 Palantir Foundry 中,如何使用 OOMing 驱动程序或执行程序解析一个非常大的 csv 文件? - In Palantir Foundry how do I parse a very large csv file with OOMing the driver or executor?

类似于How do I parse largecompressed csv files in Foundry? 但在没有压缩文件的情况下,系统生成的 (>10GB) csv 文件需要被解析为 Foundry 数据集。 这种大小的数据集通常会导致驱动程序OOM,那么我该如何解析这个文件呢? ...

在 Palantir Foundry 中,由于无法使用打印语句,我该如何调试 pyspark(或 pandas)UDF? - In Palantir Foundry, how do I debug pyspark (or pandas) UDFs since I can't use print statements?

在代码工作簿中,我可以使用print语句,这些语句出现在代码工作簿的 Output 部分(通常会出现错误)。 这不适用于 UDF,也不适用于代码创作/存储库。 我可以通过哪些方式调试我的 pyspark 代码,尤其是在我使用 UDF 时? ...

在 Palantir Foundry 的代码工作簿中如何分配执行者? - How are executors assigned in Code Workbooks in Palantir Foundry?

我有两本代码工作簿。 如果我在工作簿 A 的 pyspark 中运行一个计算量大的转换并尝试在工作簿 B 中运行一些东西,两者都会永久排队,直到工作簿 A 中的构建停止,然后工作簿 B 中的构建立即运行,就好像它在等待在工作簿 A 中构建。 执行者是否在一个用户的所有代码工作簿上共享? 到底是怎么 ...

我如何确定我的 Foundry 工作的阶段有偏差? - How do I identify that my Foundry job's stage has skew?

我有一份工作在一个似乎需要很长时间的舞台上运行。 我听说这可能是由于一种叫做“偏斜”的东西。 我怎么知道我是否受到此影响? 我知道这通常与连接、windows 和其他导致随机播放的操作相关联,但我不知道如何识别它。 ...

如何使用执行器使我的 Spark 作业运行得更快? - How do I make my Spark job run faster using executors?

我知道我的代码没有反模式,因为我的创作代码编辑器中没有任何警告,所以我知道我的代码正在执行分布式和可扩展的 PySpark 操作。 我当前的工作分配了 2 个执行程序,每个执行程序有 2 个内核,并且它以 16 的任务并行度运行,如 Spark 详细信息页面所示。 如何让这项工作运行得更快? ...

当我的数据规模较小时,如何在 Palantir Foundry 转换中获得更好的性能? - How do I get better performance in my Palantir Foundry transformation when my data scale is small?

我的数据集大小均小于 1GB,而我的转换的总 output 大小小于 1GB。 我注意到我的工作簿构建对于我期望的数据规模来说非常慢,我想知道我可以转向哪些“拨号”来优化这些。 例如,我在构建的 Spark 详细信息中看到,我的几个阶段有 200 个任务,每个任务只获取几 KB 的数据。 那正确吗 ...

是否可以从数据集中生成 pdf 并保存到代工厂 - is it possible to generate pdf from datasets and save to foundry

FPDF是一个允许将 pandas dataframe 转换为格式良好的 pdf 报告的库。 代工厂代码仓库或代码工作簿中是否有将 pdf 文件从 spark 或 pandas dataframe 写入代工厂的功能? 我需要从过滤到几行的铸造数据集中创建格式良好的 pdf 报告。 ...

如何在代码工作簿中加入 Palantir Foundry 中的两个数据集? - How do I JOIN two datasets in Palantir Foundry within a code workbook?

嗨,我知道这是一个基本问题,但我是 Foundry 和 Pyspark 的新手,请帮忙! 我需要使用 3 列在 Palantir Foundry 的代码工作簿中加入两个数据集(两个在两个列中命名相同,但一个在数据集中使用不同的名称)我不知道如何做到这一点。 感谢您的帮助! ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM