![](/img/trans.png)
[英]Creating structured hive table with unstructured GPS packets in csv format
[英]Loading unstructured CSV data into Hive
我想將一個包含來自 Stack Exchange 的 250000 個帖子的 CSV 文件加載到 Hive 中。 CSV 采用以下格式:
Id Score ViewCount ParentId Body DisplayName rnk
每個字段都以“”分隔,但將所有內容搞砸的字段是 Body。
Body 包含網站上前 250000 個帖子的內容,所以里面有各種各樣的字符,所以每行有一個帖子,有 250000 行。
我已經閱讀了 Serde 和 Regexp,但我的 Hive 表中仍然出現空值。
CREATE TABLE dataStore(Id string, Score string, ViewCount string, ParentId string, Body String, DisplayName String, Rank String)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = """",
"escapeChar" = "\"
)
STORED AS TEXTFILE;
我通常使用ogrodnek 的 serde ,你可能會更幸運。 另外我認為你沒有正確地逃避你的特殊角色,我相信你需要
"quoteChar" = "\"",
"escapeChar" = "\\"
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.