繁体   English   中英

在R中,如何从字段中删除换行符,以便Amazon Athena可以读取它?

[英]In R How do you remove line breaks from a field so it's readable by Amazon Athena?

我正在R(Max OSX)中使用我的ETL流程,因此必须将其导出到AWS S3存储桶,以便Athena可以读取它。 当前Athena无法正确读取它,因为列内的换行符。 如何在不删除数据中所有换行符的情况下进行修复?

听起来您有一两列包含换行符的CSV文件。 这对……真的不是一个好东西……对于包括Athena在内的任何事物来说都是如此 (但是这些“大数据”系统是如此可爱,因为特别是它似乎无法执行诸如读取CSV文件这样的事情,而其他环境却难以处理)。

它还听起来像你需要什么你做是在使用的Tableau(虽然我不知道为什么你不能写为多种格式)。 我是从您最近提出的另一个问题中得到的。

Tableau可以读取以换行符分隔的JSON,而Athena则喜欢以换行符分隔的JSON,因此只需使用以下内容写出数据框:

jsonlite::stream_out(mtcars, gzfile("mtcars.json.gz"))

将其扩展到S3并在Athena中定义架构(就像您仍然必须使用CSV一样)。

如果该可怕的程序无法处理gzip的ndjson,那么您还可以将您的Dragon粪便(tableau / drag-n-drop)用户指向该文件或未压缩的版本。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM