在使用EMR / Hive将数据从S3导入DynamoDB时，如何处理用引号（CSV）括起来的字段

Question

我正在尝试使用EMR / Hive将数据从S3导入DynamoDB。 我的CSV文件包含用双引号括起来并用逗号分隔的字段。 在hive中创建外部表时，我可以将分隔符指定为逗号但是如何指定字段用引号括起来？

如果我没有指定，我看到DynamoDB中的值填充在两个双引号“”value“”中，这似乎是错误的。

我正在使用以下命令来创建外部表。 有没有办法指定字段用双引号括起来？

CREATE EXTERNAL TABLE emrS3_import_1(col1 string, col2 string, col3 string, col4 string)  ROW FORMAT DELIMITED FIELDS TERMINATED BY '","' LOCATION 's3://emrTest/folder';

任何建议，将不胜感激。 谢谢Jitendra

Answer 1

我也遇到了同样的问题，因为我的字段用双引号括起来并用分号（;）分隔。 我的表名是employee1。

所以我搜索了链接，我找到了完美的解决方案。

我们必须为此使用serde。 请使用以下链接下载serde jar： https ： //github.com/downloads/IllyaYalovyy/csv-serde/csv-serde-0.9.1.jar

然后使用hive提示符执行以下步骤：

add jar path/to/csv-serde.jar;

create table employee1(id string, name string, addr string)
row format serde 'com.bizo.hive.serde.csv.CSVSerde'
with serdeproperties(
"separatorChar" = "\;",
"quoteChar" = "\"")
stored as textfile
;

然后使用以下查询从您的给定路径加载数据：

load data local inpath 'path/xyz.csv' into table employee1;

然后运行：

select * from employee1;

现在你将看到魔力。 谢谢。

Answer 2

以下代码解决了相同类型的问题

CREATE TABLE TableRowCSV2(    
    CODE STRING,        
    PRODUCTCODE STRING, 
    PRICE STRING     
)
    COMMENT 'row data csv'    
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'

WITH SERDEPROPERTIES (
   "separatorChar" = "\,",
   "quoteChar"     = "\""
)
STORED AS TEXTFILE
tblproperties("skip.header.line.count"="1");

Answer 3

如果您坚持使用CSV文件格式，则必须使用自定义SerDe; 这是基于opencsv图书馆的一些工作。

但是，如果你可以修改源文件，你可以选择一个新的分隔符，以便引用的字段不是必需的（祝你好运），或者重写以逃避任何带有单个转义字符的嵌入式逗号，例如'\\'，可以使用ESCAPED BY在ROW FORMAT中指定：

CREATE EXTERNAL TABLE emrS3_import_1(col1 string, col2 string, col3 string, col4 string)  ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' LOCATION 's3://emrTest/folder';

Answer 4

Hive现在包含一个OpenCSVSerde ，它可以正确地解析那些引用的字段，而无需添加额外的jar或容易出错和正则表达式。

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'

Answer 5

Hive不支持开箱即用的字符串。 有两种方法可以解决这个问题：

使用不同的字段分隔符（例如管道）。
编写基于OpenCSV的自定义InputFormat。

更快（并且可以说更健全）的方法是修改您的初始导出过程以使用不同的分隔符，以便您可以避免引用的字符串。 通过这种方式，您可以告诉Hive使用带有制表符或管道分隔符的外部表：

CREATE TABLE foo (
  col1 INT,
  col2 STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';

Answer 6

在您的配置单元查询中使用csv-serde-0.9.1.jar文件，请参阅http://illyayalovyy.github.io/csv-serde/

add jar /path/to/jar_file

Create external table emrS3_import_1(col1 string, col2 string, col3 string, col4 string) row format serde 'com.bizo.hive.serde.csv.CSVSerde'
with serdeproperties
(
  "separatorChar" = "\;",
  "quoteChar" = "\"
) stored as textfile
tblproperties("skip.header.line.count"="1") ---to skip if have any header file
LOCATION 's3://emrTest/folder';

Answer 7

这个问题可以有多种解决方案。

编写自定义SerDe类
使用RegexSerde
从数据中删除转义的分隔符字符

更多信息，请访问http://grokbase.com/t/hive/user/117t2c6zhe/urgent-hive-not-respecting-escaped-delimiter-characters

在使用EMR / Hive将数据从S3导入DynamoDB时，如何处理用引号（CSV）括起来的字段

问题描述

7 个解决方案

解决方案1
20 2014-03-05 06:29:54

解决方案2
12 2016-04-17 12:59:37

解决方案3
3 已采纳 2012-12-29 00:11:38

解决方案4
3 2016-04-14 03:56:20

解决方案5
2 2012-12-28 14:59:24

解决方案6
1 2016-02-24 09:44:51

解决方案7
0 2014-06-18 12:10:14

在使用EMR / Hive将数据从S3导入DynamoDB时，如何处理用引号（CSV）括起来的字段

问题描述

7 个解决方案

解决方案1 20 2014-03-05 06:29:54

解决方案2 12 2016-04-17 12:59:37

解决方案3 3 已采纳 2012-12-29 00:11:38

解决方案4 3 2016-04-14 03:56:20

解决方案5 2 2012-12-28 14:59:24

解决方案6 1 2016-02-24 09:44:51

解决方案7 0 2014-06-18 12:10:14

解决方案1
20 2014-03-05 06:29:54

解决方案2
12 2016-04-17 12:59:37

解决方案3
3 已采纳 2012-12-29 00:11:38

解决方案4
3 2016-04-14 03:56:20

解决方案5
2 2012-12-28 14:59:24

解决方案6
1 2016-02-24 09:44:51

解决方案7
0 2014-06-18 12:10:14