繁体 English 中英

使用Spark或Scala删除具有十亿条记录的表中的记录

[英]Deleting records in a table with billion records using spark or scala

原文 2019-07-30 18:47:34 1 1 sql/ scala/ apache-spark/ azure-databricks

我们在Azure数据仓库中有一个包含170亿条记录的表。 现在，我们有一个方案，必须根据某些where条件从该表中删除记录。 我们正在Azure Databricks笔记本中用Scala语言编写Spark。

我们在Spark中搜索了不同的选项来执行此操作，但是所有建议都首先读取整个表，从中删除记录，然后在Data Warehosue中覆盖整个表。 但是，由于表中有大量记录，因此这种方法在我们的情况下不起作用。

您能否建议我们如何使用Spark / Scala实现此功能？

1）检查是否可以通过azure数据块中的spark / scala代码调用存储过程，但是Spark不支持存储过程。

2）尝试先读取整个表以删除记录，但是它进入了永无止境的循环。

1 个解决方案

可以根据需要使用select子句创建视图，然后使用该视图

从包含15亿条oracle记录的表中删除8亿条孤记录

[英]deleting 800 million orphan records from a table containing 1.5 billion records in oracle

删除范围内的十亿条记录与精确 ID 查找 MYSQL

[英]Deleting Billion records in a range vs exact ID lookup MYSQL

删除表中的一系列记录

[英]Deleting a range of records in a table

从包含 120 亿条记录的 SQL 表中删除约 30 亿条记录的有效方法

[英]Efficient way to delete ~3Billion records from a SQL Table containing 12Billion records

删除SQL表中记录的速度

[英]Speed in deleting records in SQL table

从巨大的表中删除记录

[英]Deleting records from a huge table

使用自定义逻辑处理来自 Redshift 的数十亿条记录

[英]Process several billion records from Redshift using custom logic

在Teradata中加载700亿条记录

[英]load 70 Billion records in teradata

BigQuery-在分区内嵌套操作，以便汇总具有170亿条记录的表中的连续记录

[英]BigQuery - nest operations within partition in order to aggregate consecutive records from a table with 17 billion records

如果所有记录都等于特定值，则从一个表中删除记录

[英]Deleting records from one table if all records are equal to a specific value

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从包含15亿条oracle记录的表中删除8亿条孤记录删除范围内的十亿条记录与精确 ID 查找 MYSQL 删除表中的一系列记录从包含 120 亿条记录的 SQL 表中删除约 30 亿条记录的有效方法删除SQL表中记录的速度从巨大的表中删除记录使用自定义逻辑处理来自 Redshift 的数十亿条记录在Teradata中加载700亿条记录 BigQuery-在分区内嵌套操作，以便汇总具有170亿条记录的表中的连续记录如果所有记录都等于特定值，则从一个表中删除记录

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM