繁体   English   中英

Pentaho数据集成匙XML解析

[英]Pentaho data integration spoon XML parsing

我在路径中有一些20k xml文件。 我只想在一个项目(如队列)中访问一个文件用于XML stax步骤,而不访问XML输入步骤。 是否可以选择一次获取一个文件,进行处理,然后再获取下一个文件。 例子:像每个循环。

您应该使用具有两个子转换的作业。

第一个转换有一个“获取文件名”步骤,然后是“复制行以得到结果”。

父作业设置要为每个输入行运行的第二转换,并将文件名步骤从ktr 1映射到ktr 2的文件名参数。

第二次转换具有参数文件名,该文件名用于定义使用StaX解析器读取的文件。

您可以Get the files namesGet data form XML结果,并XML source is define in a field选项。

一个转换包含两个步骤,并且自动进行并行处理。 但是,如果您的解决方案需要可扩展性(不仅仅是读取项目并将其写入某处),我建议您使用nsouza的解决方案。 万一发生错误,您将有机会知道哪个文件有罪。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM