![](/img/trans.png)
[英]How do I use a local IDE for Java Transforms in Foundry Code Repositories?
[英]In Foundry Code Repositories, how do I iterate over all datasets in a directory?
我正在尝试从单个 Pyspark 转换中的单个目录读取(所有或多个)数据集。 是否可以遍历路径中的所有数据集,而无需将单个数据集硬编码为输入?
我想从多个数据集中动态获取不同的列,而无需对单个输入数据集进行硬编码。
所以这不起作用,因为每次运行 CI 时都会得到不一致的结果。 这将破坏 TLLV(转换级别逻辑版本控制),因为无法判断逻辑何时实际发生了变化,从而将数据集标记为过时。
您必须写出要转换的每个数据集的逻辑路径,即使这意味着它们被传递到生成的转换中。 至少需要有一些一致的记录,说明哪些数据集是哪个提交的目标。
实现您正在寻找的另一种策略是制作一个长数据集,它是数据集的非透视版本。 通过这种方式,您可以简单地APPEND
新行/文件到此数据集,这将允许您接受任意输入,假设您的转换是以这种方式构建的。 我的经验法则是:如果您需要动态模式或数据集的动态计数,那么最好在单个数据集中使用动态文件/行计数。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.