繁体   English   中英

来自Excel格式文件的AWS Glue

[英]AWS Glue from Excel formatted file

我有一些.csv格式的文件,我需要使用AWS胶水从S3存储桶抓取,然后使用Glue Job上传到Aurora RDS。

它们是由同事使用Excel保存的,但由于Excel不支持UTF-8编码,因此它们可能是Win-1252编码的? 无论如何,它们不是UTF-8,并且未被AWS Glue爬虫正确分类。 将文件转换为xlsx或xls不会改善问题,因为Glue也没有这些分类器。

除了保存到文本和手动编辑每个文件之外,还可以从Excel中保存哪些格式的AWS Glue可以正确地抓取和解析? 与这样一个无处不在的程序没有任何兼容性似乎很奇怪,即使它是Excel ...

遗憾的是,正如AWS Glue Key Concepts文档中所解释的那样,基于文本的格式必须采用UTF-8格式。

我相信当你使用文本格式导出excel中的文件时,你可以选择使用UTF-8作为编码,或者至少过去曾经是一个选项。 如果您可以从Excel转换为UTF-8,那将是解决问题的最简单方法。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM