簡體 English 中英

將6000億條記錄從一個配置單元表加載到另一個

[英]Loading 600billion records from 1 hive table into another

原文 2019-04-01 17:43:13 7 1 apache-spark/ hadoop/ hive

我在1個數據庫中有一個配置單元外部表，其中包含大約6,000億條記錄和100列。 我需要將數據原樣復制到其他數據庫的同一表中。 我正在嘗試編寫一個火花代碼，但是它花了很多時間。 有什么建議我將如何編寫代碼？ 我是新來的火花！

1 個解決方案

不要復制，請放在原處。 在另一個數據庫中創建外部表，其位置指向數據位置。

USE YOUR_DATABASE;
CREATE EXTERNAL TABLE abc ... LOCATION 'hdfs://your/data';

如果需要，使用MSCK REPAIR TABLE abc;恢復分區MSCK REPAIR TABLE abc; 或ALTER TABLE abc RECOVER PARTITIONS; 如果您正在使用EMR。

如果您絕對需要將數據復制到另一個位置（並且如果您在Amazon支付的EC2集群上，則需要為此花錢的話），請使用distcp（分布式復制工具）：

hadoop distcp hdfs://your/data hdfs://your/data2

從 Hive Metastore（鑲木地板格式）在 Spark 中本地處理 10 億條記錄需要永遠 6 小時。如何加快速度？

[英]Processing 1 billion records locally in Spark from Hive metastore(parquet format) takes forever 6 hours. How to speed it up?

使用Spark或Scala刪除具有十億條記錄的表中的記錄

[英]Deleting records in a table with billion records using spark or scala

使用自定義邏輯處理來自 Redshift 的數十億條記錄

[英]Process several billion records from Redshift using custom logic

加載一個字段並將其映射到 Hive 表中

[英]Loading and mapping a field into Hive Table

從Spark作業中調用JDBC進行Impala / Hive並加載表

[英]Calling JDBC to impala/hive from within a spark job and loading a table

Spark SQL-Hivecontext-Hive中從一個表到另一表的數據復制

[英]Spark SQL - Hivecontext - Datacopy from one table to another table in Hive

如何檢查 Hive 表中的損壞記錄

[英]How to check for corrupt records in Hive table

在火花中優化Hive表加載時間

[英]Optimize Hive table loading time in spark

使用Spark將非規范化的Hive表加載到Elasticsearch中

[英]Loading a denormalized Hive table into Elasticsearch with Spark

從 HIVE 表中摻雜重復，需要寫出丟棄的記錄和抓取計數

[英]Dopping duplicates from HIVE table, need to write out the dropped records and grab count

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 從 Hive Metastore（鑲木地板格式）在 Spark 中本地處理 10 億條記錄需要永遠 6 小時。如何加快速度？使用Spark或Scala刪除具有十億條記錄的表中的記錄使用自定義邏輯處理來自 Redshift 的數十億條記錄加載一個字段並將其映射到 Hive 表中從Spark作業中調用JDBC進行Impala / Hive並加載表 Spark SQL-Hivecontext-Hive中從一個表到另一表的數據復制如何檢查 Hive 表中的損壞記錄在火花中優化Hive表加載時間使用Spark將非規范化的Hive表加載到Elasticsearch中從 HIVE 表中摻雜重復，需要寫出丟棄的記錄和抓取計數

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM