簡體   English   中英

將非結構化 CSV 數據加載到 Hive

[英]Loading unstructured CSV data into Hive

我想將一個包含來自 Stack Exchange 的 250000 個帖子的 CSV 文件加載到 Hive 中。 CSV 采用以下格式:

    Id  Score   ViewCount   ParentId    Body    DisplayName rnk

每個字段都以“”分隔,但將所有內容搞砸的字段是 Body。

Body 包含網站上前 250000 個帖子的內容,所以里面有各種各樣的字符,所以每行有一個帖子,有 250000 行。

我已經閱讀了 Serde 和 Regexp,但我的 Hive 表中仍然出現空值。

    CREATE TABLE dataStore(Id string, Score string, ViewCount string,     ParentId string, Body String, DisplayName String, Rank String)
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
    WITH SERDEPROPERTIES (
    "separatorChar" = ",",
    "quoteChar"     = """",
    "escapeChar"    = "\"
    )  
    STORED AS TEXTFILE;

我通常使用ogrodnek 的 serde ,你可能會更幸運。 另外我認為你沒有正確地逃避你的特殊角色,我相信你需要

"quoteChar"     = "\"",
"escapeChar"    = "\\"

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM