繁体   English   中英

CSV文件复制到保留了文件名的HDFS

[英]CSV file copy to HDFS with filename preserved

最有可能是一个假问题,但我找不到合适的例子。

如果我迷路了,请改正我的想法。 为此,我创建了一个作业并通过流式触发它:

job create hdfsjob 
    --definition "filepollhdfs --directory=/tmp/xd --names=*" --deploy
stream create csvStream 
    --definition "file --ref=true --dir=/data/in --pattern=*.txt 
    > queue:job:hdfsjob" --deploy

我可以通过xd源filepollhdfs中的fileName和fileExtension来管理文件名和扩展名,但是如何保留其原始名称?

为防止翻转,将rollover参数设置为一个很高的值是个好主意,还是例如可能破坏内存消耗的东西?

理想的做法是遍历源目录结构并在hdfs中重新创建相同的结构。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM