繁体 English 中英

将6000亿条记录从一个配置单元表加载到另一个

[英]Loading 600billion records from 1 hive table into another

原文 2019-04-01 17:43:13 7 1 apache-spark/ hadoop/ hive

我在1个数据库中有一个配置单元外部表，其中包含大约6,000亿条记录和100列。 我需要将数据原样复制到其他数据库的同一表中。 我正在尝试编写一个火花代码，但是它花了很多时间。 有什么建议我将如何编写代码？ 我是新来的火花！

1 个解决方案

不要复制，请放在原处。 在另一个数据库中创建外部表，其位置指向数据位置。

USE YOUR_DATABASE;
CREATE EXTERNAL TABLE abc ... LOCATION 'hdfs://your/data';

如果需要，使用MSCK REPAIR TABLE abc;恢复分区MSCK REPAIR TABLE abc; 或ALTER TABLE abc RECOVER PARTITIONS; 如果您正在使用EMR。

如果您绝对需要将数据复制到另一个位置（并且如果您在Amazon支付的EC2集群上，则需要为此花钱的话），请使用distcp（分布式复制工具）：

hadoop distcp hdfs://your/data hdfs://your/data2

从 Hive Metastore（镶木地板格式）在 Spark 中本地处理 10 亿条记录需要永远 6 小时。如何加快速度？

[英]Processing 1 billion records locally in Spark from Hive metastore(parquet format) takes forever 6 hours. How to speed it up?

使用Spark或Scala删除具有十亿条记录的表中的记录

[英]Deleting records in a table with billion records using spark or scala

使用自定义逻辑处理来自 Redshift 的数十亿条记录

[英]Process several billion records from Redshift using custom logic

加载一个字段并将其映射到 Hive 表中

[英]Loading and mapping a field into Hive Table

从Spark作业中调用JDBC进行Impala / Hive并加载表

[英]Calling JDBC to impala/hive from within a spark job and loading a table

Spark SQL-Hivecontext-Hive中从一个表到另一表的数据复制

[英]Spark SQL - Hivecontext - Datacopy from one table to another table in Hive

如何检查 Hive 表中的损坏记录

[英]How to check for corrupt records in Hive table

在火花中优化Hive表加载时间

[英]Optimize Hive table loading time in spark

使用Spark将非规范化的Hive表加载到Elasticsearch中

[英]Loading a denormalized Hive table into Elasticsearch with Spark

从 HIVE 表中掺杂重复，需要写出丢弃的记录和抓取计数

[英]Dopping duplicates from HIVE table, need to write out the dropped records and grab count

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从 Hive Metastore（镶木地板格式）在 Spark 中本地处理 10 亿条记录需要永远 6 小时。如何加快速度？使用Spark或Scala删除具有十亿条记录的表中的记录使用自定义逻辑处理来自 Redshift 的数十亿条记录加载一个字段并将其映射到 Hive 表中从Spark作业中调用JDBC进行Impala / Hive并加载表 Spark SQL-Hivecontext-Hive中从一个表到另一表的数据复制如何检查 Hive 表中的损坏记录在火花中优化Hive表加载时间使用Spark将非规范化的Hive表加载到Elasticsearch中从 HIVE 表中掺杂重复，需要写出丢弃的记录和抓取计数

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM