我有一个数据集,它有一个 xml 列,我正在尝试使用 codeworkbook 将单个 xml 导出为文件名在另一列中的文件 我使用下面的代码过滤了我想要的行 它工作到这里。 现在对于最后一部分,我在 python 任务中尝试了这个,但抱怨参数(我应该错误地设置它)。 但即使它有效,我认为它也将作 ...
我有一个数据集,它有一个 xml 列,我正在尝试使用 codeworkbook 将单个 xml 导出为文件名在另一列中的文件 我使用下面的代码过滤了我想要的行 它工作到这里。 现在对于最后一部分,我在 python 任务中尝试了这个,但抱怨参数(我应该错误地设置它)。 但即使它有效,我认为它也将作 ...
在代码工作簿中,我想安装库 plotly.express 的 5.11.0 版。 我尝试使用以下代码在全局代码部分安装库 plotly.express 的 5.11.0 版: 但我得到了这个错误语法错误:语法无效 ...
我有一个包含三列的数据集,col 1:country(String),col 2:threshold_1(bool),col 3:threshold_2(bool) 我正在尝试使用此逻辑创建一个新列,但出现错误我正在为此使用 Palantir 代码工作簿,谁能告诉我我在这里缺少什么? ...
我希望提高运行过滤逻辑的性能。 为此,想法是通过将分区列设置为数据集中的列(称为splittable_column )来进行配置单元分区设置。 我检查了可splitting_column列的基数很低,如果我从 split_column 中对每个值进行子集化,最终结果是一个 800MB 的镶木地板文 ...
在现有代码工作簿中使用“Export to Code Repository Helper”工具时,修改下游依赖项以指向新创建的 Code Repository 数据集的最有效方法是什么? 我们要修改所有下游依赖项,而不是子集。 ...
类似于How do I parse largecompressed csv files in Foundry? 但在没有压缩文件的情况下,系统生成的 (>10GB) csv 文件需要被解析为 Foundry 数据集。 这种大小的数据集通常会导致驱动程序OOM,那么我该如何解析这个文件呢? ...
在代码工作簿中,我可以使用print语句,这些语句出现在代码工作簿的 Output 部分(通常会出现错误)。 这不适用于 UDF,也不适用于代码创作/存储库。 我可以通过哪些方式调试我的 pyspark 代码,尤其是在我使用 UDF 时? ...
我有两本代码工作簿。 如果我在工作簿 A 的 pyspark 中运行一个计算量大的转换并尝试在工作簿 B 中运行一些东西,两者都会永久排队,直到工作簿 A 中的构建停止,然后工作簿 B 中的构建立即运行,就好像它在等待在工作簿 A 中构建。 执行者是否在一个用户的所有代码工作簿上共享? 到底是怎么 ...
我注意到从表中查询时代码工作簿太慢了。 它比从数据仓库使用 SQL 慢得多。 快速提取和加入数据以进行迭代分析的正确工作流程是什么? ...
我有一份工作在一个似乎需要很长时间的舞台上运行。 我听说这可能是由于一种叫做“偏斜”的东西。 我怎么知道我是否受到此影响? 我知道这通常与连接、windows 和其他导致随机播放的操作相关联,但我不知道如何识别它。 ...
我可以在 Spark 详细信息页面中看到我的工作的并行性,但我想知道我的工作实际上与多少个 Executor 一起运行。 我在哪里可以看到这个? ...
我听说有人提到作业可以在 static 分配或所谓的动态分配中运行。 我怎么知道我的工作正在使用哪一个? ...
我知道我的代码没有反模式,因为我的创作代码编辑器中没有任何警告,所以我知道我的代码正在执行分布式和可扩展的 PySpark 操作。 我当前的工作分配了 2 个执行程序,每个执行程序有 2 个内核,并且它以 16 的任务并行度运行,如 Spark 详细信息页面所示。 如何让这项工作运行得更快? ...
我将一个图像文件上传到 Foundry 的一个文件夹中,我想将它用作转换的输入。 看起来它作为某种资源存储在名为 Blobster 的服务中,我怎样才能访问该文件并使用它? ...
我有时听到人们提到这个 AQE 功能,我想知道如何验证我的工作是否正在使用它。 我正在代码存储库和代码工作簿中运行转换。 ...
我的数据集大小均小于 1GB,而我的转换的总 output 大小小于 1GB。 我注意到我的工作簿构建对于我期望的数据规模来说非常慢,我想知道我可以转向哪些“拨号”来优化这些。 例如,我在构建的 Spark 详细信息中看到,我的几个阶段有 200 个任务,每个任务只获取几 KB 的数据。 那正确吗 ...
FPDF是一个允许将 pandas dataframe 转换为格式良好的 pdf 报告的库。 代工厂代码仓库或代码工作簿中是否有将 pdf 文件从 spark 或 pandas dataframe 写入代工厂的功能? 我需要从过滤到几行的铸造数据集中创建格式良好的 pdf 报告。 ...
嗨,我知道这是一个基本问题,但我是 Foundry 和 Pyspark 的新手,请帮忙! 我需要使用 3 列在 Palantir Foundry 的代码工作簿中加入两个数据集(两个在两个列中命名相同,但一个在数据集中使用不同的名称)我不知道如何做到这一点。 感谢您的帮助! ...
我需要在 Palantir Foundry 的代码工作簿中联合两个数据集,但我不知道该怎么做。 我想使用 Pyspark 来做到这一点。 我是 Foundry 的新手,请帮忙! ...
我想将意外修改的工作簿恢复到以前的版本。 ...