在R中，如何从字段中删除换行符，以便Amazon Athena可以读取它？

Question

我正在R（Max OSX）中使用我的ETL流程，因此必须将其导出到AWS S3存储桶，以便Athena可以读取它。 当前Athena无法正确读取它，因为列内的换行符。 如何在不删除数据中所有换行符的情况下进行修复？

Answer 1

听起来您有一两列包含换行符的CSV文件。这对……真的不是一个好东西……对于包括Athena在内的任何事物来说都是如此（但是这些“大数据”系统是如此可爱，因为特别是它似乎无法执行诸如读取CSV文件这样的事情，而其他环境却难以处理）。

它还听起来像你需要什么你做是在使用的Tableau（虽然我不知道为什么你不能写为多种格式）。 我是从您最近提出的另一个问题中得到的。

Tableau可以读取以换行符分隔的JSON，而Athena则喜欢以换行符分隔的JSON，因此只需使用以下内容写出数据框：

jsonlite::stream_out(mtcars, gzfile("mtcars.json.gz"))

将其扩展到S3并在Athena中定义架构（就像您仍然必须使用CSV一样）。

如果该可怕的程序无法处理gzip的ndjson，那么您还可以将您的Dragon粪便（tableau / drag-n-drop）用户指向该文件或未压缩的版本。