标签[incremental-load] - 堆栈内存溢出

处理 ADF 管道中的 Null 值 - Handling Null Values in ADF Pipeline

我正在使用时间戳作为水印列执行增量加载。我的源代码中的日期列中几乎没有 null 值。当我使用复制活动复制数据时，只会复制日期列不是 null 的行，但我也想复制日期列具有 null 值的所有其他行。我曾尝试在查找活动中使用 IsNull 和 Coalesce，但这不起作用。有没有一种方法可 ...

Azure数据工厂增量加载 - Incremental load in Azure Data Factory

我正在将我的数据从 Azure SQl DB 复制到 Azure SQL DB。我有一些带有日期列的表和一些仅带有分配主键的 ID 列的表。在 ADF 中执行增量加载时，我可以将 select 日期作为具有日期列的表的水印列，将 id 作为具有 id 列的表的水印列，但问题是我的 id 具有 g ...

有没有办法让 dbt_cloud_pr_xxxx_xxx 成为现有数据的克隆？ - Is there a way to make the dbt_cloud_pr_xxxx_xxx a clone of an existing data?

所以使用 dbt cloud，并在每个拉取请求上运行，但我的增量模型已完全刷新，因为所有内容都在新的数据库目标 (dbt_cloud_pr_xxxxx_xxx) 中运行，有什么方法可以解决这个问题？也许将新目的地创建为旧目的地的克隆？ ...

使用分页在 gridview 中显示图像 - Displaying images in gridview using paging

我有一个带有增量加载的 gridview，它显示本地文件夹中的书籍封面。 XAML：代码：书籍.cs：我想首先在 gridview 中显示 18 本书的封面。然后如果用户滚动，它将显示接下来的 18 本书封面，以此类推，直到所有的书籍封面都显示在 gridview 中。如何应用它？ ...

在使用 dbt 进行增量时，如果该行存在，我想聚合，否则插入 - while doing incremental using dbt i want to to aggregation if that row exist else insert

我正在使用 DBT 将数据从 redshift 中的一个模式增量加载到另一个模式以创建报告。在 DBT 中，有一种直接的方式来使用 upsert 增量加载数据。但不是做传统的upsert。如果它们已经存在，我想对目标表中的传入行和旧行求和（在表中列的 rest 的唯一 ID 上），否则插入它们 ...

用于批量增量处理的 Delta 实时表 - Delta Live Tables for Batch Incremental Processing

是否可以使用 Delta Live Tables 执行增量批处理？现在，我相信当管道运行时，此代码将始终加载目录中的所有可用数据，但是，如果我们这样做，如果管道以触发模式运行，它是否只会在每次运行时加载增量数据？我知道您可以通过使用触发模式.trigger(once=True)或 ...

Azure Synapse - 管道 - 复制数据 - 没有表的增量加载 - Azure Synapse - Pipelines - Copy Data - incremental load without table

我正在使用一个非常简单的体系结构将数据从外部源复制到 Azure Data Lake Storage gen 2，并通过无服务器池（我在其中执行一些聚合）将其提供给 PowerBI。对于初始加载，我使用了 CopyData 活动（突触管道）并将数据存储在 parquet 文件中。由于 parq ...

使用增量加载在 gridview 中显示图像 - Displaying images in gridview using incremental loading

我有一个在本地包上显示 435 个图像的 gridview。我尝试使用增量加载。 XAML： ItemsToShow 类：代码：但是我遇到了一个问题，即图像没有在gridview 上成功显示。如何处理？以及如何首先显示 16 张图像，滚动时将显示接下来的 16 张图像，依 ...

Azure 数据流中的聚合返回无效值 - Aggregation in Azure Data Flow is Returning Invalid Value

我在数据工厂中创建了一个数据流。步骤 1. 阅读 parquet 文件。步骤 2. 聚合文件以获得 Max(DateField) 步骤 3. 使用派生列写入值。步骤 4. 使用 Value 和 DateField 更改行任务。步骤 5. 接收要更新的水印表 select。流程更新了值，但没 ...

Azure 数据工厂中 Rest API 的自定义分页 - Custom Pagination of Rest API in Azure Data Factory

I would like to retrieve all results from Rest API endpoint.The URL has the below form https://myapi.com/relativeapi?project=&repo=&prId=&amp ...

Nifi中连接查询的多个表的增量负载 - Incremental load from multiple tables for join queries in Nifi

对于增量加载，我们将使用 QueryDatabaseTable 处理器，它从一个表中增量地提取数据。为了编写从多个表中提取数据的 sql 查询，我们使用的是 ExecuteSQL 处理器。我们如何提取连接查询的增量负载？ ...

Microsoft PowerApps Excel 增量加载 - Microsoft PowerApps Excel incremental load

我对 PowerApps 非常陌生，并且有一些制作应用程序的任务，这将涉及增量数据加载。目前我们选择 Excel 表格作为数据源。所以实际的任务是让数据从一个 Excel 文件中读取并写入另一个 Excel 文件，以某种方式跟踪自上次加载以来的新记录。我在网上搜索，但没有找到任何这样的场景。 ...

ADF 到 Snowflake 增量加载和流 - ADF to Snowflake incremental load and streams

我正在尝试以增量方式将文件从 Azure blob 加载到 Snowflake 表。之后在雪花中，我将流放在该表上并将数据加载到目标表。我无法从 Azure 到 Snowflake 进行增量加载。我尝试了很多方法但没有奏效。我附上了我的 2 种不同方式（管道）的图像来做同样的事情。在这 ...

spark 中是否有类似 Glue“书签”功能的东西可以在工作级别进行跟踪？ - Is there something like Glue "Bookmark" feature in spark which keeps track at job level?

我正在查看 spark 中是否有类似 AWS Glue“书签”的内容。我知道 spark 中有检查点，它适用于单个数据源。在 Glue 中，我们可以使用书签来跟踪使用单个书签的作业中涉及的不同表中的所有文件。 ...

Azure DataFactory 中的错误称为 Incorrect Syntax near - error called Incorrect Syntax near in Azure DataFactory

我正在尝试从源本地数据库到 Azure SQL 数据库进行简单的增量更新，该数据库基于包含“日期+静态描述”的本地数据库中名为“RP”的 Varchar 列，例如：“20210314Metro 本地数据库列快照 1-我使用在 Azure SQL 数据库中创建的表创建了一个名为 Lookup1 的查 ...

如何使用 logstash+jdbc 和数据库触发器对 Elasticsearch 进行增量加载 - How can I do incremental load into Elasticsearch using logstash+jdbc and Database Trigger

我有 elasticsearch 集群，我正在使用 logstash + jdbc 加载数据。我想知道有什么方法可以基于数据库触发器而不是依赖于使用最后修改值列的查询来进行增量加载任何帮助是极大的赞赏 ...

将 MongoDB NoSQL 复制到 SQL 表中的最佳方法 - Best way to replicate MongoDB NoSQL into SQL tables

我如何将（增量加载）MongoDB (NoSQL) 复制到 SQL 表。我们有一个基于 web 的解决方案，将数据加载到 MongoDB。数据大小将近 1TB。我们需要在 Looker BI 工具中做 BI Reporting。但 looker 不直接支持 MongoDB。因此，我们必须将我 ...

如何在 Airflow 中使用 last_mod_dt（时间戳）从 oracle 数据源执行每小时增量提取？ - How to perform hourly incremental extracts from an oracle datasource using last_mod_dt (timestamp) in Airflow?

需要使用来自使用 last_modified_dt 时间戳列的 oracle 数据源中的 Airflow/Python 进行每小时表刷新/加载。在 Airflow 中，有airflow.models.taskinstance API，它从task_instance 元数据表中公开数据，并具有以下 ...

Power BI Athena 增量刷新 - Power BI Athena Incremental Refresh

我已经成功地将 Power BI 的每日增量刷新与 MySQL 数据源一起使用。但是，我无法使用 AWS Athena 进行配置，因为似乎后者将所需参数RangeStart和RangeEnd的值解释为字符串。由于数据源大约有 5000 万行，我宁愿避免每天从头开始查询。在这个来自Guy in ...

使用 Python 的 AzureDataFactory 增量加载 - AzureDataFactory Incremental Load using Python

如何使用python为增量加载创建azure datafactory？创建活动或管道时，我应该在哪里提及文件加载选项（增量加载：LastModifiedOn）？我们可以通过选择 File Load Option 使用 UI 来做到这一点。但是如何使用 python 以务实的方式做同样的事情？ ...