简体   繁体   English

Glue 爬虫无法分类大小 > 20 mb 的 JSON 数据

[英]Glue crawler could not classify JSON data of size > 20 mb

I am a newbie to AWS Glue.我是 AWS Glue 的新手。 I am having a raw data in s3 in JSON format with size > 20 MB.我在 s3 中有一个 JSON 格式的原始数据,大小 > 20 MB。 After creating a crawler over this JSON data, classification and compression type are showing as 'UNKNOWN' when look into the table details.在此 JSON 数据上创建爬虫后,在查看表详细信息时,分类和压缩类型显示为“未知”。

I have tried creating a custom classifier with jsonPath $[*].我尝试使用 jsonPath $[*] 创建自定义分类器。 Still I am not able get the classification correctly.我仍然无法正确分类。

Could anyone please help me with this?谁能帮我解决这个问题?

Create a custom classifier and add jsonPath with the array name in the json object and add the classifier in the corresponding crawler创建自定义分类器并在 json object 中添加数组名的jsonPath 并在对应的爬虫中添加分类器

Eg: $arrayname[*]例如:$数组名[*]

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM