[英]how to set spark structured streaming check point dir to windows local directory?
我的操作系统是windows 11
和 Apache Spark 版本是spark-3.1.3-bin-hadoop3.2
我尝试使用带有 pyspark 的 spark 结构化流。 下面是我简单的 spark 结构化流代码。
spark = SparkSession.builder.master("local[*]").appName(appName).getOrCreate()
spark.sparkContext.setCheckpointDir("/C:/tmp")
没有spark.sparkContext.setCheckpointDir
行的相同火花代码不会在 Ubuntu 22.04 上引发错误。 但是,上述代码在 windows 11 上无法成功运行。例外情况是
pyspark.sql.utils.IllegalArgumentException: Pathname /C:/tmp/67b1f386-1e71-4407-9713-fa749059191f from C:/tmp/67b1f386-1e71-4407-9713-fa749059191f is not a valid DFS filename.
I think the error codes mean checkpoint directory are generated on hadoop file system of linux os, not on windows 11. My operating system is windows and checkpoint directory shoud be windows 11 local directory. 如何使用 windows 11 本地目录配置 apache spark 检查点? 我使用file:///C:/temp
和hdfs://C:/temp
URL 进行测试。 但是仍然抛出错误。 任何回复将不胜感激。 此致
step 1) Since you are running spark from a windows machine, make sure winutils.exe file added in hadoop bin folder reference link for same (6th Step) https://phoenixnap.com/kb/install-spark-on-windows- 10 .
步骤2)然后尝试像这样添加spark.sparkContext.setCheckpointDir("D:\Learn\Checkpoint") spark.sparkContext.setCheckpointDir("D:\Learn\Checkpoint") 确保spark用户确实具有写入权限提到的检查点目录
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.