cost 331 ms
Databricks SQL 抛出 PARSE_DATETIME_BY_NEW_PARSER

[英]Databricks SQL throws PARSE_DATETIME_BY_NEW_PARSER

我的数据块表中有一列,自定义日期时间格式为字符串,同时尝试将字符串转换为日期时间我观察到以下错误PARSE_DATETIME_BY_NEW_PARSER SQL 命令 select to_date(ORDERDATE, 'M/dd/yyyy H:mm') from sales_kaggle_ch ...

如何通过旋转 pyspark dataframe 中的现有表列来创建新列

[英]How to create new columns by pivoting existing table columns in a pyspark dataframe

我有一个 pyspark dataframe 以下格式 我我正在尝试以下面的格式创建一个 pyspark dataframe 我尝试通过按顺序值过滤将源 dataframe 分成三个(每个键都存在 1、2、3)并使用键使用左连接加入它们,并能够以所需格式获取 dataframe。 但是pyspar ...

在 Pyspark 中进行连接操作后,如何从 dataframe 中删除多余的行?

[英]How to remove the extra rows from a dataframe after doing join operations in Pyspark?

我有两个 dataframe df1 和 df2。 df1 有大约 100 万行,df2 有大约 50 万行。 我想通过从 df2 中获取匹配值及其相关列值来更新 df1 的列值,并且我正在为其使用连接操作? 完成连接后,我可以看到在我想删除的 df1 中添加了一些额外的行。 源文件中没有主键列 ...

Numpy - 从范围 (1-100) 创建一个随机数组

[英]Numpy - create a random array from the range (1-100)

我有一个问题说“创建一个 8×8 数组,其对角线范围为 (1-100) 的随机自然值。其他值应为 0。提示:您可以使用 numpy 的‘眼睛’function。” 我知道 numpy 中的随机数组我需要使用以下代码 但我不知道如何为它选择范围。 我读到我可以使用 random.radiant,但是那 ...

Azure 高级存储中的 Databricks Auto Loader 文件通知模式

[英]Databricks Auto Loader file notification mode in Azure Premium storage

我想使用 Databricks AutoLoader 读取 stream 个文件,数据量很大所以我想使用文件通知模式(当我使用目录列表模式时延迟很糟糕),但似乎我需要一个“存储队列” “在 Azure 高级存储中不可用,当我尝试运行以下代码时收到错误消息:UnknownHostException: ...

计算数据块中的百分位数

[英]Calculating percentile in data bricks

任何人都可以帮忙告诉错误在哪里吗? 我究竟做错了什么? (数据块) 即使来自 databricks www 的示例也不起作用并产生如下相同的错误。 有没有其他方法可以计算这个指标? 我仍然收到错误: ParseException:在输入 'GROUP('(第 15 行,位置 43)处没有可行的替 ...

Unity 目录 - 外部位置 AbfsRestOperationException

[英]Unity Catalog - External location AbfsRestOperationException

我正在尝试使用 Unity 目录外部位置功能在 Databricks 和 Azure 数据湖存储 gen2 之间建立连接。 假设: Adls 位于专用端点后面 Databricks 工作区是私有的 .net,我已将工作区的私有和公共 su.net 添加到“防火墙和 virtual.network ...

Azure 管道 | 在两者之间建立线性依赖关系

[英]Azure Pipeline | Create linear dependency between the two

有两条管道。 第二个管道应该在第一个管道完成后触发。 第二个管道需要参数,它是从第一个作业接收到的 id。 我检查了 webhook 和触发器,但没有将参数传递给作业的选项。 有没有办法创建依赖关系并将参数传递给管道? ...

Pyspark管道在python类中的表现

[英]Performance of Pyspark pipeline in python classes

我有一个在 Databricks 上运行的 pyspark 管道。 管道基本上是按顺序执行的许多功能,这些功能是读取/创建表、连接、转换等(即常见的 spark 东西)。 因此,例如它可能类似于以下内容: 现在为了更好地构建代码,我将管道的常量和函数封装到一个 class 中,其中包含 static ...

在 pandas 中将多列转换为单列内的列表

[英]Convert Multiples Columns to a List inside a single column in pandas

我正在使用 azure 数据块,将不同的 excel forms 存储在一个 blob 中。 我需要按原样保留 3 列,并将其他倍数(以及每种形式的不同)响应列分组为列表。 我在这里的主要目标是将这些不同的列转换为一个唯一的 object,键是问题的标题,值是响应。 我有以下 dataframe: ...

将 Pandas 或 Pyspark dataframe 从 Databricks 保存到 SharePoint

[英]Save Pandas or Pyspark dataframe from Databricks to SharePoint

如何使用 Databricks 的 Pandas 或 Pyspark dataframe 更新 SharePoint 上的文件? 从 blob 存储上传文件是可能的还是唯一的选择? 如果上传是唯一可能的方式,除了 Office365-REST-Python-Client 之外,是否有其他库可以实现 ...

将 Pandas 或 Pyspark dataframe 从 Databricks 保存到 Azure Blob 存储

[英]Save Pandas or Pyspark dataframe from Databricks to Azure Blob Storage

有没有一种方法可以将 Databricks 中的 Pyspark 或 Pandas dataframe 保存到 blob 存储中,而无需安装或安装库? 在将存储容器安装到 Databricks 并使用库com.crealytics.spark.excel后,我能够实现这一点,但我想知道我是否可以在没 ...

清除 Databricks 工件位置

[英]Clear Databricks Artifact Location

我正在使用dbx cli 将我的工作流部署到数据块中。 我在下面配置了.dbx/project.json : 每次当我运行dbx deploy...时,它都会将我的任务脚本存储到带有 hash 文件夹的 DBFS 中。 如果我运行 100 次dbx deploy... ,它会创建 100 个 has ...

了解 Spark 中序列化结果的总大小

[英]Understanding Total Size of Serialized results in Spark

我正在对 Databricks 中托管的巨大 Delta 表的数据框执行非常简单的操作。 我面临的问题是,运行几个小时后,代码失败并显示错误消息“作业因阶段失败而中止:59014 个任务的序列化结果总大小 (4.0 GiB) 大于 spark.driver.maxResultSize 4.0 GiB ...

databricks 表中的 Z 顺序列

[英]Z order column in databricks table

我正在创建一个笔记本,最终用户可以通过提供表名作为输入来运行它并获得有效的示例查询(通过使用分区键和 Z 顺序列)。 我可以使用 describe table 或 spark.catalog 获取分区列,但无法找到从表元数据获取 Z 顺序列的方法? 下面给出获取分区列的代码。 谢谢,尼克什 ...

2022-12-23 14:06:00   1   21    databricks  
Databricks 上的 Adobe PDF API 提取

[英]Adobe PDF API extract on Databricks

我正在尝试使用 python sdk for Adobe PDF API 服务在数据块环境中设置用于 pdf 数据提取的示例代码。 这个集群只有一个驱动程序节点。 但是我在访问上传到 DBFS 文件夹的配置文件时遇到了问题。 请让我知道如何解决这个问题。 这是代码片段 import os.path ...

我可以在 PySpark DataFrame 上应用 MERGE INTO 吗?

[英]Can I apply MERGE INTO on PySpark DataFrame?

我有两个 PySpark DataFrame,我想合并这些 DataFrame。 当我尝试使用 MERGE INTO 语句时,出现没有表的错误。 我在 Databricks 中运行代码。 示例代码: 并在下一个单元格中使用 SQL 语句: 我收到错误: 有什么办法可以合并两个 DataFrame ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM