繁体   English   中英

从MySql转储导入到配置单元

[英]Import from MySql dump to hive

将MySql转储导入Hive时遇到问题。

我使用了sqoop连接器将数据成功地从MySql导入到Hive 但是,有更多的数据转储要导入到Hive。 首先还原数据库是不可行的。 由于转储大小为300G,因此需要3天才能恢复。 另外,由于磁盘空间问题,我无法在MySql上还原两个以上的文件。

结果,我希望将MySql转储中的数据直接导入到配置单元中,而不还原到MySql中。

MySql转储还有一个问题,就是有多个插入语句(大约10亿个)。 那么它将为每个插入创建多个文件吗? 在这种情况下,如何合并它们?

您可以使用Hive提供的“加载”命令来加载本地目录中存在的数据。

示例:这会将文件fileName.csv中存在的数据加载到配置单元表tableName中。

load data local inpath '/tmp/fileName.csv' overwrite into table tableName;

如果您的数据存在于HDFS中,请使用不带本地选项的相同加载命令。

示例:此处/ tmp / DataDirectory是HDFS目录,并且该目录中存在的所有文件都将被加载到Hive中。

load data inpath '/tmp/DataDirectory/*' overwrite into table tableName;

警告:由于Hive是读取模式,因此请确保要加载的文件和Hive表中的行定界符和字段定界符相同。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM