我尝试按照此处的说明使用 IntelliJ 设置 databricks-connect。 我的理解是我可以从 IDE 运行代码,它会在数据块集群上运行。

我从 miniconda 环境中添加了 jar 目录,并将它移到File -> Project Structure...所有 maven 依赖项之上File -> Project Structure...

不过我觉得我做错了什么。 当我尝试运行我的模块时,出现以下错误:

21/07/17 22:44:24 ERROR SparkContext: Error initializing SparkContext.
java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.
    at org.apache.spark.memory.UnifiedMemoryManager$.getMaxMemory(UnifiedMemoryManager.scala:221)
    at org.apache.spark.memory.UnifiedMemoryManager$.apply(UnifiedMemoryManager.scala:201)
    at org.apache.spark.SparkEnv$.create(SparkEnv.scala:413)
    at org.apache.spark.SparkEnv$.createDriverEnv(SparkEnv.scala:262)
    at org.apache.spark.SparkContext.createSparkEnv(SparkContext.scala:291)
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:495)
    at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2834)
    at org.apache.spark.sql.SparkSession$Builder.$anonfun$getOrCreate$2(SparkSession.scala:1016)
    at scala.Option.getOrElse(Option.scala:189)
    at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:1010)
    at com.*.sitecomStreaming.sitecomStreaming$.main(sitecomStreaming.scala:184)
    at com.*.sitecomStreaming.sitecomStreaming.main(sitecomStreaming.scala)

259 GB 的系统内存让我觉得它试图在我的笔记本电脑上本地运行,而不是在 dbx 集群上运行? 我不确定这是否正确以及我能做些什么来让它正常运行......

任何帮助表示赞赏!

===============>>#1 票数:1

databricks-connect 中的驱动程序始终在本地运行 - 只有执行程序在云中运行。 此外,此报告的内存以字节为单位,因此259522560为 ~256Mb - 您可以使用它报告的选项增加它。

PS 但是,如果您使用的是结构化流媒体,那么是的 - 这是 databricks-connect的一个已知限制

  ask by steven hurwitt translate from so

未解决问题?本站智能推荐:

1回复

从本地机器连接到Databricks时出错

I am attempting to make a connection to Databricks from my Mac(Mojave).我正在尝试从我的 Mac(Mojave)连接到 Databricks。 I did a pip install -U databricks-connect==
4回复

如何从PyCharm连接Databricks社区版集群

I want to work on some small exercise projects, I wish to use databricks cluster.我想从事一些小型练习项目,我希望使用 databricks 集群。 Can this be done.可以这样做吗。 I am hopin
2回复

使用DatabricksConnect时如何正确访问Scala中的dbutils

I'm using Databricks Connect to run code in my Azure Databricks cluster locally from IntelliJ IDEA (Scala).我正在使用 Databricks Connect 从 IntelliJ IDEA (S
1回复

无法在AzureDataBricks群集上执行Scala代码

I am trying to setup a Development environment for DataBricks, So my developers can write code using VSCODE IDE(or some other IDE) and execute the cod
1回复

使用databricks-connect安装时在本地使用Pyspark

I have databricks-connect 6.6.0 installed, which has a Spark version 2.4.6.我安装了 databricks-connect 6.6.0,它有一个 Spark 版本 2.4.6。 I have been using the da
1回复

我可以在databricks-connect中拥有多个连接吗?

I have setup on my PC a miniconda python environment where I have installed the databricks-connect package and configured the tool with databricks-con