繁体   English   中英

将非结构化 CSV 数据加载到 Hive

[英]Loading unstructured CSV data into Hive

我想将一个包含来自 Stack Exchange 的 250000 个帖子的 CSV 文件加载到 Hive 中。 CSV 采用以下格式:

    Id  Score   ViewCount   ParentId    Body    DisplayName rnk

每个字段都以“”分隔,但将所有内容搞砸的字段是 Body。

Body 包含网站上前 250000 个帖子的内容,所以里面有各种各样的字符,所以每行有一个帖子,有 250000 行。

我已经阅读了 Serde 和 Regexp,但我的 Hive 表中仍然出现空值。

    CREATE TABLE dataStore(Id string, Score string, ViewCount string,     ParentId string, Body String, DisplayName String, Rank String)
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
    WITH SERDEPROPERTIES (
    "separatorChar" = ",",
    "quoteChar"     = """",
    "escapeChar"    = "\"
    )  
    STORED AS TEXTFILE;

我通常使用ogrodnek 的 serde ,你可能会更幸运。 另外我认为你没有正确地逃避你的特殊角色,我相信你需要

"quoteChar"     = "\"",
"escapeChar"    = "\\"

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM