繁体   English   中英

Hive Serde处理嵌套结构的问题

[英]issue with Hive Serde dealing nested structs

我正在尝试使用Json Serde加载具有嵌套结构的大量json数据以配置单元。 某些字段名称在嵌套结构中以$开头。 我正在使用SerDeproperties映射蜂巢文件名,但是当我查询表时, SerDeproperties ,以$开头的字段为null,尝试使用不同的语法,但是没有运气。

样本JSON:

{
    "_id" : "319FFE15FF90",
    "SomeThing" : 
    {
            "$SomeField"     : 22,
            "AnotherField"   : 2112,
            "YetAnotherField":    1
    }
 . . . etc . . . .

使用如下模式:

create table testSample
( 
    `_id` string, 
    something struct
    <
        $somefield:int,
        anotherfield:bigint, 
        yetanotherfield:int
    >
) 
row format serde 'org.openx.data.jsonserde.JsonSerDe' 
with serdeproperties
(
    "mapping.somefield" = "$somefield"
);

此架构构建良好,但是,上表中的somefield(以$开头)始终返回null(所有其他值都存在且正确)。

我们一直在尝试许多语法组合,但无济于事。

有谁知道在嵌套字段中使用名字开头的$的窍门吗?

你几乎是对的。 尝试像这样创建表。 您犯的错误是,在Serde属性中进行映射(mapping.somefield =“ $ somefield”)时,您说的是“当寻找名为'somefield'的配置单元列时,寻找json字段'$ somefield',但是在蜂巢中,您用美元符号定义了该列,如果不是完全违法的,那肯定不是蜂巢中的最佳实践。

create table testSample
(
`_id` string,
something struct
<
    somefield:int,
    anotherfield:bigint,
    yetanotherfield:int
  >
)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
with serdeproperties
(
"mapping.somefield" = "$somefield"
);

我用一些测试数据进行了测试:

{ "_id" : "123", "something": { "$somefield": 12, "anotherfield":13,"yetanotherfield":100}}
hive> select something.somefield from testSample;
OK
12

我突然也开始看到此问题,但对于普通的列名也是如此(没有特殊字符,如$)

我正在从另一个内部表(Table2)填充外部表(Temp),并希望以JSON格式输出Temp表。 我希望在输出JSON文件中使用驼峰式的列名,因此我也使用Temp表中的Serdepoperties指定正确的名称。 但是,我看到当我从Temp表中选择*时,它将为名称已在映射中使用的列提供NULL值。

我正在运行Hive 0.13。 以下是命令:

创建表命令:

CREATE EXTERNAL TABLE Temp (
    data STRUCT<
        customerId:BIGINT, region:STRING, marketplaceId:INT, asin:ARRAY<STRING>>
) 
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' 
WITH SERDEPROPERTIES ( 
    'mapping.customerid' = 'customerId',
    'mapping.marketplaceid' = 'marketplaceId'
) 
LOCATION '/output'; 

INSERT INTO TABLE Temp
    SELECT 
        named_struct ('customerId',customerId, 'region', region, 'marketplaceId', marketplaceId, 'asin', asin) 
    FROM Table2;

从温度中选择*:

{"customerid":null,"region":"EU","marketplaceid":null,"asin":["B000FC1PZC"]}
{"customerid":null,"region":"EU","marketplaceid":null,"asin":["B000FC1C9G"]}

查看“ customerid”和“ marketplaceid”如何为空。 生成的JSON文件为:

{"data":{"region":"EU","asin":["B000FC1PZC"]}}
{"data":{"region":"EU","asin":["B000FC1C9G"]}}

现在,如果我删除带有serdeproperties的表,该表将开始获取所有值:

{"customerid":1,"region":"EU","marketplaceid":4,"asin":["B000FC1PZC"]}
{"customerid":2,"region":"EU","marketplaceid":4,"asin":["B000FC1C9G"]}

然后,这样生成的JSON文件为:

{"data":{"region":"EU","marketplaceid":4,"asin":["B000FC1PZC"],"customerid":1}}
{"data":{"region":"EU","marketplaceid":4,"asin":["B000FC1C9G"],"customerid":2}}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM