繁体   English   中英

使用Spark或Scala删除具有十亿条记录的表中的记录

[英]Deleting records in a table with billion records using spark or scala

我们在Azure数据仓库中有一个包含170亿条记录的表。 现在,我们有一个方案,必须根据某些where条件从该表中删除记录。 我们正在Azure Databricks笔记本中用Scala语言编写Spark。

我们在Spark中搜索了不同的选项来执行此操作,但是所有建议都首先读取整个表,从中删除记录,然后在Data Warehosue中覆盖整个表。 但是,由于表中有大量记录,因此这种方法在我们的情况下不起作用。

您能否建议我们如何使用Spark / Scala实现此功能?

1)检查是否可以通过azure数据块中的spark / scala代码调用存储过程,但是Spark不支持存储过程。

2)尝试先读取整个表以删除记录,但是它进入了永无止境的循环。

可以根据需要使用select子句创建视图,然后使用该视图

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM