标签[data-lake] - 堆栈内存溢出

Dataplex Explore Workbench 是如何工作的？ - Dataplex Explore Workbench how is works?

我正在尝试通过 Dataplex Explore 工作台运行一些数据探索，但是我无法通过第一页：我创建了一个湖、区域和资产：还有一个 Dataproc Metastore 集群：和湖的“默认”环境：但浏览选项卡仍然相同。我的项目在 europe-west1 中，并通过共享 VPC ...

如何在没有额外层的情况下处理 Bronze 层中的 CSV 个文件 - How to handle CSV files in the Bronze layer without the extra layer

如果我的原始数据是 CSV 格式，并且我想将它作为 Delta 表存储在 Bronze 层中，那么我最终会得到四层，如 Raw+Bronze+Silver+Gold。我应该考虑哪种方法？ ...

纯 AWS S3 上的 Trino - Trino on pure AWS S3

是否可以在没有任何其他附加引擎的情况下在纯 AWS S3 上运行 Trino？在 Trino 连接器中没有 S3，但在文档中提到它可以在 S3 上运行或例如 Hive。所以我需要在 S3 上的一些层，例如 Hadoop/Hive 或类似的东西，或者可以使用Trino 只是和 S3 一样吗？ ...

Dask 按键写入多个 parquet 文件 - Dask writing into multiple parquet files by key

我在磁盘上有一个非常大的数据集作为 csv 文件。我想将其加载到 dask 中，进行一些清理，然后将每个日期值的数据保存到单独的文件/文件夹中，如下所示：我正在努力弄清楚如何有效地做到这一点。我考虑过做类似的事情的方法：我得到一个目录结构如下：值得注意的是，如果我随后尝试读取“test/d ...

AWS Glue 作业：调用 getCatalogSource 时出错。无.get - AWS Glue Job : An error occurred while calling getCatalogSource. None.get

我在我的 aws 胶水连接中使用密码/用户名，现在我切换到 Secret Manager。现在我在运行 etl 作业时收到此错误：调用 o89.getCatalogSource 时出错。无.get 即使连接和爬虫工作：连接图像。（我在工作详情中添加了连接）爬虫图像。这个以前工作的 ...

Databricks 增量表架构不匹配 - Databricks Delta Table Schema mismatch

假设我使用以下 Schema 创建了一个外部 Delta 表 product_cd: INTEGER product_dsc：VARCHAR（128）我插入了一些数据，然后出于某种原因，我决定在保留数据的同时删除元数据。当我尝试重新创建表时，我收到一个架构不匹配错误，它说 product_ds ...

是否可以用数据湖或普通数据库（如 mongodb）替换 Kafka 的功能？ - Is it possible to replace the functionality of Kafka with a data lake or normal database like mongodb?

作为一名初级数据工程师，我希望准确了解我们为什么需要 Kafka。我假设 Kafka 是一个消息队列程序，它充当数据生产系统和消费系统之间的代理。那么为什么我们不能只使用普通的数据库或数据湖作为中央存储并让它充当系统之间的代理呢？ ...

Kappa 架构是否使用数据湖？ - Does a Kappa Architecture use a data lake or not?

Kukreja 在“使用 Apache Spark、Delta Lake 和 Lakehouse 进行数据工程”中说 Kappa 架构没有数据湖。微软在https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data ...

发生异常：TypeError 'NaTType' object is not callable - Exception has occurred: TypeError 'NaTType' object is not callable

我使用 python dataframe 将数据从数据湖传输到 GP 环境。我有一个数据类型为“DateTime”的列。得到错误 “对象不可调用” . 我试过用str(dataFrame['parsed_ts'][i]) str(dataFrame['parsed_ ...

SSIS 在远程服务器（Greenplum）Datalake 上完美运行，但需要 8 多个小时 - SSIS Runs perfectly on a remote server(Greenplum) Datalake but takes 8+ hours

SSIS 包在远程服务器 (Greenplum envt) 上执行 ETL。它运行良好，但需要 8 多个小时才能完成。远程服务器交互表上的数据非常庞大（每张约 10 亿行）。 SSIS 上是否有专门针对大量数据的方法或任何选项？远程服务器：Data Lake (Greeplum) PS： ...

Spark 中的分区与数据湖中的分区 - Partitions in Spark Vs Partitions in a Data Lake

将文件写入数据湖时，特别是通过 Databricks，我们可以选择指定分区列。这将根据数据集该列中可用的值将数据保存在单独的文件夹（分区）中。同时，当我们谈论 Spark 优化时，我们谈论的是对数据进行分区。这两者有什么区别？他们之间有关系吗？据我了解，将分布式文件系统中的数据保存在 ...

在 Delta Lake 中创建 Delta 表时会发生什么？ - What Happens When a Delta Table is Created in Delta Lake?

使用 Databricks Lakehouse 平台，可以创建“表”，或者更具体地说，使用如下语句创建增量表，我想知道的是，当您创建这些表之一时，幕后到底发生了什么？在这种情况下，表到底是什么？因为数据实际上包含在数据湖（数据存储位置）中的文件中，Delta Lake 在其上运行……对吗？ ...

S3中如何根据数据动态选择虚拟仓库 - How to dynamically choose a Virtual Warehouse Based on the data, in S3

大家好，我一直在思考以下要求，我想在 S3 中根据文件大小增加仓库的大小。那么，有没有办法以编程方式执行这些任务，即我知道我们可以在 JS 中编写一个 snow 过程，并根据源文件大小根据需要进行迭代，但我只是想知道，还有其他方法吗！ ...

指导需要设置数据湖 - Guidance needs to setup datalake

我需要一些设置数据湖的指导：我们正在从返回 JSON 文件的源（rest api）中提取数据。下面给出了示例结构。我们计划将此信息存储在数据湖中，因此我有以下问题： A. 我们计划将数据转储到目录 [YEAR] - [MONTH] - [FILE_.json] 下。与将 [FILE_.js ...

MWAA Airflow no_status 用于某些特定任务 - MWAA Airflow no_status for some specific tasks

我正在使用 MWAA aiflow 1.10 并且任务没有启动，即使最后一个任务是成功的。我没有看到任何日志问题或任何问题。 ...

将 SaaS 应用数据摄取到 DL/DWH - NFR 中包括哪些内容？ - SaaS App data ingestion to DL/DWH - what include into NFR?

我们正在为繁忙的销售业务购买SaaS 解决方案。我们希望确保我们有能力访问我们的数据并将其摄取到我们的分析数据湖中（一些实时）。我正在寻求有关我们应该/更喜欢供应商及其解决方案的哪些要求的建议？ API - 大多数供应商都提到他们提供用于数据访问的 API，但是， API 需要具备哪些功能才 ...

lakeFS、Hudi、Delta Lake合并合并冲突 - lakeFS, Hudi, Delta Lake merge and merge conflicts

我正在阅读有关 lakeFS 的文档，现在还不清楚什么是 lakeFS 方面的合并甚至合并冲突。假设我使用 Apache Hudi 对单个表提供 ACID 支持。我想介绍多表 ACID 支持，为此我想将 lakeFS 与 Hudi 一起使用。如果我理解正确，lakeFS 是一个与数据无关的解决 ...

从 DynamoDB 表创建数据湖 - Creating a data lake from a DynamoDB table

我们有一项服务，其中约 50GB 的 DynamoDB 表是我们的功能存储库，我们将其用于实时在线应用程序。我们想从此表创建一个数据湖，用于历史数据、model 培训和分析见解。我们要保证数据湖数据 w.r.t 的 30 分钟“新鲜度”。原来的表。但是，我对什么是好的架构感到困惑：我对数据湖 ...

将文件安全传输到 Google 云存储 - Secure File Transfer to Google Cloud Storage

我正在尝试为数据湖构建架构，我已经生成了我的 CSV、txt 和 Avro 文件，它们位于本地机器中，我想将它们上传到 Google Cloud Storage，但我看到我必须go 通过公共互联网，我不想那样做。我必须使哪些选项尽可能安全？我试图创建一个计算引擎环境来通过 SFTP 将文件上传到 ...

内部三角洲湖 - On-premise delta lake

是否可以在本地实施三角洲湖？如果是，需要安装哪些软件/工具？我正在尝试在本地实现一个 delta Lake 来分析一些日志文件和数据库表。我目前的机器装有 ubuntu、apache 火花。不知道还需要什么其他工具。是否有任何其他工具建议来实施本地数据湖概念？ ...