
[英]Switching between Databricks Connect and local Spark environment
我希望使用 Databricks Connect 开发 pyspark 管道。 DBConnect 真的很棒,因为我能够在实际数据所在的集群上运行我的代码,因此它非常适合集成测试,但我也希望能够在开发和单元测试期间( pytest和pytest-spark ),只需使用本地 Spark 环境。 有 ...
[英]Switching between Databricks Connect and local Spark environment
我希望使用 Databricks Connect 开发 pyspark 管道。 DBConnect 真的很棒,因为我能够在实际数据所在的集群上运行我的代码,因此它非常适合集成测试,但我也希望能够在开发和单元测试期间( pytest和pytest-spark ),只需使用本地 Spark 环境。 有 ...
[英]How to properly access dbutils in Scala when using Databricks Connect
我正在使用 Databricks Connect 在我的 Azure Databricks 集群中从 IntelliJ IDEA (Scala) 本地运行代码。 一切正常。 我可以在 IDE 中进行本地连接、调试和检查。 我创建了一个 Databricks 作业来运行我的自定义应用程序 JAR,但 ...
[英]Running into 'java.lang.OutOfMemoryError: Java heap space' when using toPandas() and databricks connect
I'm trying to transform a pyspark dataframe of size [2734984 rows x 11 columns] to a pandas dataframe calling toPandas() . Whereas it is working to ...
[英]Databricks Connect java.lang.ClassNotFoundException
我在 Azure Databricks 上将我们的 databricks 集群更新为 DBR 9.1 LTS,但是当我尝试使用 Databricks-connect 在 VS Code 中运行它时,我经常使用的一个包给了我一个错误,而以前的集群没有。 以前的集群在 DBR 8.3 上运行。 我也更新 ...
[英]How to download an installed dbfs jar file from databricks cluster to local machine?
我是 Databricks 的新手,我希望将已安装的 Databricks 集群库下载到我的本地计算机。 你能帮我吗? 因此,为了详细说明,我已经有一个正在运行的集群,上面已经安装了库。 我需要将其中一些库(它们是 dbfs jar 文件)下载到我的本地计算机。 实际上,我一直在尝试通过 data ...
[英]Error Connecting to Databricks from local machine
我正在尝试从我的 Mac(Mojave) 连接到 Databricks。 我做了一个pip install -U databricks-connect==5.5.* 我启动了一个 spark-shell,但是当我尝试在 spark 中查询时,出现以下错误 引起:com.databricks.se ...
[英]How can I connect Databricks Community Edition cluster from PyCharm
我想从事一些小型练习项目,我希望使用数据块集群。 这个可以吗。 我希望有一些方法可以通过 databricks-connect 实用程序连接 databricks 集群。 只需要一些步骤。 提前致谢。 ...
[英]Databricks Connect with Azure Event Hubs
我在尝试使用databricks-connect并根据 Maven 安装的扩展在 Databricks 上运行一些 Python 代码时遇到问题(在这种情况下com.microsoft.azure:azure-eventhubs-spark_2.11:2.3.17在Databricks 官方上找到与 ...
[英]Dockerfile can't copy specified local directory & file
几天以来尝试了很多让它工作,但因为我无法放弃对 SO 的查询来澄清它。 所以,我关注了我想为其构建 dockerfile 的项目结构。 从上面的项目结构中可以看出,我有 2 个我关心的文件。 lib 中的jars和文件.databricks-connect 这些本质上是我在本地系统上使用 ...
[英]Execute databricks magic command from PyCharm IDE
使用 databricks-connect,我们可以成功运行许多 IDE 中用 Databricks 或 Databricks notebook 编写的代码。 Databricks 还创建了许多魔术命令,通过添加%sql或%md等命令来支持他们在每个单元格中运行多语言支持的功能。 我目前面临的一个 ...
[英]Common metadata in databricks cluster
我的 Azure 云平台的数据块实例中有 3-4 个集群。 我想为所有集群维护一个公共元存储。 让我知道是否有人实现了这一点。 ...
[英]Import notebooks in Databricks
我正在使用 databricks-connect 和 VS Code 为 Databricks 开发一些 python 代码。 我想使用 databricks-connect 直接从 VS Code 编码和运行/测试所有内容,以避免处理 Databricks web IDE。对于基本笔记本,它工作得 ...
[英]Using databricks-connect debugging a notebook that runs another notebook
我可以使用 Visual Studio 代码从我的 Linux Centos VM 连接到 Azure Databricks 集群。 下面的代码甚至可以正常工作from pyspark.sql import SparkSession spark = SparkSession.builder.get ...
[英]Databricks connect fails with No FileSystem for scheme: abfss
我已经设置了Databricks Connect,这样我就可以在本地开发并获得 Intellij 好东西,同时利用 Azure Databricks 上的大型 Spark 集群的强大功能。 当我想读取或写入 Azure Data Lake spark.read.csv("abfss://blah. ...
[英]How to run a non-spark code on databricks cluster?
我能够从 databricks connect 中提取数据并完美地运行 spark 作业。 我的问题是如何在远程集群上运行非 spark 或本机 python 代码。 由于机密性,不共享代码。 ...
[英]Databricks Connect: Automatically Accept License Prompt
我正在尝试编写一个Dockerfile来构建一个利用 Databricks Conenect 的容器。 因此,我需要通过 Docker RUN命令设置和安装 Databricks Connect。 我有以下几点: 作为产生我的问题的简化示例。 步骤: databricks-connect con ...
[英]Databricks connect & PyCharm & remote SSH connection
嘿 StackOverflowers! 我遇到了一个问题。 我已将 PyCharm 设置为通过 SSH 连接与(天蓝色)VM 连接。 所以首先我为 ssh 连接进行配置 我设置了映射我通过在 vm 中启动一个终端来创建一个 conda 环境,然后我下载并连接到 databricks-connect。 ...
[英]Error connecting to databricks in python with databricks-connect
我在 mac 上使用 databricks-connect 使用 pycharm 但在我完成配置并尝试运行databricks-connect test后,我收到以下错误并且不知道问题是什么。 我遵循了这个文档: https://docs.databricks.com/user-guide/dev- ...
[英]Cannot start Azure Databricks cluster
我是 MS Azure 的新手。 我正在尝试下载 Microsoft Academic Graph 进行各种分析,但他们不提供批量下载结构化数据集。 openacademicgraph 等外部资源并不是很有用,所以我想我可以尝试通过 Azure 下载数据。 幸运的是,有相应的手册 - “在 Az ...
[英]Can Flink/Delta Connector create multiple databricks table
我正在使用新的Flink/Databricks 连接器,我试图了解单个 Flink 接收器是否可以创建多个增量表? 查看文档,对 path/s3/hdfs 的引用是单个位置 是否可以根据事件 stream 动态更改 basePath? ...