
[英]Databricks SQL throws PARSE_DATETIME_BY_NEW_PARSER
我的数据块表中有一列,自定义日期时间格式为字符串,同时尝试将字符串转换为日期时间我观察到以下错误PARSE_DATETIME_BY_NEW_PARSER SQL 命令 select to_date(ORDERDATE, 'M/dd/yyyy H:mm') from sales_kaggle_ch ...
[英]Databricks SQL throws PARSE_DATETIME_BY_NEW_PARSER
我的数据块表中有一列,自定义日期时间格式为字符串,同时尝试将字符串转换为日期时间我观察到以下错误PARSE_DATETIME_BY_NEW_PARSER SQL 命令 select to_date(ORDERDATE, 'M/dd/yyyy H:mm') from sales_kaggle_ch ...
[英]Pyspark reading csv delimiter not parsed for some data
csv_df = spark.read.option("header", "true") .csv(path, sep = '┐') 一小部分数据无法正确解析,最终全部在第一列格式为"str┐str┐str┐str┐str┐str┐str┐str" ,其他列为nul ...
[英]How to create new columns by pivoting existing table columns in a pyspark dataframe
我有一个 pyspark dataframe 以下格式 我我正在尝试以下面的格式创建一个 pyspark dataframe 我尝试通过按顺序值过滤将源 dataframe 分成三个(每个键都存在 1、2、3)并使用键使用左连接加入它们,并能够以所需格式获取 dataframe。 但是pyspar ...
[英]How to remove the extra rows from a dataframe after doing join operations in Pyspark?
我有两个 dataframe df1 和 df2。 df1 有大约 100 万行,df2 有大约 50 万行。 我想通过从 df2 中获取匹配值及其相关列值来更新 df1 的列值,并且我正在为其使用连接操作? 完成连接后,我可以看到在我想删除的 df1 中添加了一些额外的行。 源文件中没有主键列 ...
[英]Numpy - create a random array from the range (1-100)
我有一个问题说“创建一个 8×8 数组,其对角线范围为 (1-100) 的随机自然值。其他值应为 0。提示:您可以使用 numpy 的‘眼睛’function。” 我知道 numpy 中的随机数组我需要使用以下代码 但我不知道如何为它选择范围。 我读到我可以使用 random.radiant,但是那 ...
[英]Databricks Auto Loader file notification mode in Azure Premium storage
我想使用 Databricks AutoLoader 读取 stream 个文件,数据量很大所以我想使用文件通知模式(当我使用目录列表模式时延迟很糟糕),但似乎我需要一个“存储队列” “在 Azure 高级存储中不可用,当我尝试运行以下代码时收到错误消息:UnknownHostException: ...
[英]Calculating percentile in data bricks
任何人都可以帮忙告诉错误在哪里吗? 我究竟做错了什么? (数据块) 即使来自 databricks www 的示例也不起作用并产生如下相同的错误。 有没有其他方法可以计算这个指标? 我仍然收到错误: ParseException:在输入 'GROUP('(第 15 行,位置 43)处没有可行的替 ...
[英]Unity Catalog - External location AbfsRestOperationException
我正在尝试使用 Unity 目录外部位置功能在 Databricks 和 Azure 数据湖存储 gen2 之间建立连接。 假设: Adls 位于专用端点后面 Databricks 工作区是私有的 .net,我已将工作区的私有和公共 su.net 添加到“防火墙和 virtual.network ...
[英]Azure Pipeline | Create linear dependency between the two
有两条管道。 第二个管道应该在第一个管道完成后触发。 第二个管道需要参数,它是从第一个作业接收到的 id。 我检查了 webhook 和触发器,但没有将参数传递给作业的选项。 有没有办法创建依赖关系并将参数传递给管道? ...
[英]Upload excel file from Databricks DBFS to SharePoint
如何使用库请求或任何内置库将文件从 Databricks DBFS 上传到 SharePoint REST API 请求? 我找到了有关使用Office365-REST-Python-Client 的解决方案,但我不想使用第 3 方库。 ...
[英]Performance of Pyspark pipeline in python classes
我有一个在 Databricks 上运行的 pyspark 管道。 管道基本上是按顺序执行的许多功能,这些功能是读取/创建表、连接、转换等(即常见的 spark 东西)。 因此,例如它可能类似于以下内容: 现在为了更好地构建代码,我将管道的常量和函数封装到一个 class 中,其中包含 static ...
[英]Convert Multiples Columns to a List inside a single column in pandas
我正在使用 azure 数据块,将不同的 excel forms 存储在一个 blob 中。 我需要按原样保留 3 列,并将其他倍数(以及每种形式的不同)响应列分组为列表。 我在这里的主要目标是将这些不同的列转换为一个唯一的 object,键是问题的标题,值是响应。 我有以下 dataframe: ...
[英]Save Pandas or Pyspark dataframe from Databricks to SharePoint
如何使用 Databricks 的 Pandas 或 Pyspark dataframe 更新 SharePoint 上的文件? 从 blob 存储上传文件是可能的还是唯一的选择? 如果上传是唯一可能的方式,除了 Office365-REST-Python-Client 之外,是否有其他库可以实现 ...
[英]Save Pandas or Pyspark dataframe from Databricks to Azure Blob Storage
有没有一种方法可以将 Databricks 中的 Pyspark 或 Pandas dataframe 保存到 blob 存储中,而无需安装或安装库? 在将存储容器安装到 Databricks 并使用库com.crealytics.spark.excel后,我能够实现这一点,但我想知道我是否可以在没 ...
[英]Error when writing pyspark df to BigQuery from Databricks
运行此命令后出现此错误result_df.write.format("bigquery").option("table", "id:dataset.my_table").option("temporaryGcsBucket", "gs://test").save() 但是得到了这个错误: 我试过调试 ...
[英]Clear Databricks Artifact Location
我正在使用dbx cli 将我的工作流部署到数据块中。 我在下面配置了.dbx/project.json : 每次当我运行dbx deploy...时,它都会将我的任务脚本存储到带有 hash 文件夹的 DBFS 中。 如果我运行 100 次dbx deploy... ,它会创建 100 个 has ...
[英]Understanding Total Size of Serialized results in Spark
我正在对 Databricks 中托管的巨大 Delta 表的数据框执行非常简单的操作。 我面临的问题是,运行几个小时后,代码失败并显示错误消息“作业因阶段失败而中止:59014 个任务的序列化结果总大小 (4.0 GiB) 大于 spark.driver.maxResultSize 4.0 GiB ...
[英]Z order column in databricks table
我正在创建一个笔记本,最终用户可以通过提供表名作为输入来运行它并获得有效的示例查询(通过使用分区键和 Z 顺序列)。 我可以使用 describe table 或 spark.catalog 获取分区列,但无法找到从表元数据获取 Z 顺序列的方法? 下面给出获取分区列的代码。 谢谢,尼克什 ...
[英]Adobe PDF API extract on Databricks
我正在尝试使用 python sdk for Adobe PDF API 服务在数据块环境中设置用于 pdf 数据提取的示例代码。 这个集群只有一个驱动程序节点。 但是我在访问上传到 DBFS 文件夹的配置文件时遇到了问题。 请让我知道如何解决这个问题。 这是代码片段 import os.path ...
[英]Can I apply MERGE INTO on PySpark DataFrame?
我有两个 PySpark DataFrame,我想合并这些 DataFrame。 当我尝试使用 MERGE INTO 语句时,出现没有表的错误。 我在 Databricks 中运行代码。 示例代码: 并在下一个单元格中使用 SQL 语句: 我收到错误: 有什么办法可以合并两个 DataFrame ...