cost 331 ms
由于 NoSuchMethodError: org.apache.hadoop.conf.Configuration.getPassword,Kube.netes spark 操作员驱动程序 pod 失败

[英]Kubernetes spark operator driver pod is failing due to NoSuchMethodError: org.apache.hadoop.conf.Configuration.getPassword

我们正在尝试安装 kube.netes spark opeartor 并编写一个示例 sparkapplication 以连接到 s3 并编写文件。 但是无论我们做什么,我们都无法摆脱以下错误: Spark算子的Spark应用创建流程: 为 spark 创建了基础镜像$ cd spark-3.1. ...

Spark badRecordsPath 没有按预期将记录写入路径

[英]Spark badRecordsPath is not writing records to the Path as expected

我有以下样本 csv 数据: ID 名称薪水 1个 “拉朱” 1000 2个 《乔达姆》 15000 3个 “基山” 30000 4个 “麦克风” 两百多最后一条记录中的工资字段已损坏。 我正在尝试使用 badRecordsPath 处理损坏的记录,如下面的代码所示。 但它不起作用。 ...

pandas_udf 错误,向量预期为 1,得到 2

[英]Error in pandas_udf with the vector expected 1, got 2

我试图获取带有纬度和经度的国家/地区名称作为输入,因此我使用了 Nominatim API 并且当我作为 UDF 传递时它有效,但是当我尝试使用 pandas_udf 时出现以下错误: UDF 抛出异常:“RuntimeError:来自 pandas_udf 的结果向量不是所需的长度:预期 1, ...

通过使用PySpark如何解析嵌套的JSON(Blob格式)

[英]By using PySpark how to parse nested JSON (Blob format)

我得到以下 blob 格式的记录,并用新行分隔。 下面是用换行符分隔的两个事件的示例, 这里有几点需要注意, 在下面的示例中,事件(结构)不一致。 对于某些事件,我将从 Id、区域设置列中获取频道 ID、对话 ID、replyActivity Id,对于缺少的列,我需要在我的数据框中填充为 nul ...

如何在 RDD Python 中将元素列表转换为 1 或 0?

[英]How do I convert list of elements to 1 or 0 in RDD Python?

我想让列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都为 1,而所有不在列表中的值都为 0。我该怎么做? 我有一本字典和一个列表: **我希望 output 如下所示:** 我想让列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都为 1,而所有不在列 ...

将深度嵌套的字段向上移动一层 pyspark dataframe

[英]Move deeply nested fields one level up in pyspark dataframe

我有一个从 XML 创建的 pyspark dataframe。由于 XML 的结构方式,我在 dataframe 的架构中有一个额外的、不必要的嵌套级别。 我当前的 dataframe 的架构: 我正在尝试用下面的电影数组替换电影结构,如下所示: 我得到的最接近的是使用:from pyspark ...

Spark:减少 memory 对 wholeTextFile 的使用

[英]Spark: Reduce memory usage for wholeTextFile

我有许多小文本文件要使用 sc.wholeTextFile 处理,遇到了 memory 个错误。 我有 100 个 gz 格式的文本文件,每个压缩文件大约 10 MB,未压缩的文件大约 100 MB。 压缩后总大小1.2G,未压缩150G左右。我的机器是16核64G Linux机器,使用的是spar ...

PySpark session 中的动态分配问题(在 MLRun 和 K8s 中)

[英]Issue with dynamic allocation in PySpark session (under MLRun and in K8s)

我想在我的计算中最大化 MLRun 解决方案中 Spark 集群的能力,我在 MLRun 解决方案中为 Spark 集群使用了这个 session 设置(它在 Kube.netes 集群下): 问题是,我无法利用所有功能,在许多情况下,我只使用了 1、2 或 3 个具有少量内核的执行器。 你知道吗 ...

我如何使用 spark-submit 而不是 spark-operator 将 RestartPolicy 设置为 kube.netes 上的 Spark 驱动程序 pod?

[英]How can i set RestartPolicy to Spark driver pod on kubernetes using spark-submit not with spark-operator?

我想一如既往地使用重启策略。 当我的 Spark Streaming 应用程序失败时,它应该会自动启动。 我曾尝试在 podTemplate 中设置策略,但它不起作用。 标签在模板中设置,但重启策略被 spark 覆盖。 ...

PySpark:自上次 True 以来的时间

[英]PySpark: Time since previous True

我有一个 Spark dataframe,像这样: 我想创建一个新列,其中包含自signal列上次为真以来的时间 任何想法如何处理这个? 我的直觉是以某种方式使用window和filter来实现这一点,但我不确定 ...

为什么 Spark Accumulator 的 output 类型需要线程安全?

[英]Why Spark Accumulator's output type need to be thread safe?

根据AccumulatorV2 ,它的 output 应该是一个可以原子读取的类型(例如,Int,Long),或者线程安全的(例如,同步集合),因为它将从其他线程读取。 假设我有一个名为 CheckSumAccumulator 的 class,它从 AccumulatorV2 扩展而来,Check ...

使用 spark udf 无限执行

[英]Endless execution with spark udf

我想得到经纬度的国家,所以我使用了 geopy 并创建了一个样本 dataframe 然后创建一个udf 它起作用了,这就是结果 ,但是当我想将我的数据与架构一起使用时 和 400 万行,所以我使用 limit 和 select 最后,使用相同的udf 问题是,当我执行显示时,过程是无休止的,我不 ...

AttributeError: 'function' object 在 Azure Databricks 中使用修复作业时没有属性 'name'

[英]AttributeError: 'function' object has no attribute 'name' when using repair job in Azure Databricks

我想在 Azure Databricks 中运行修复作业 (MSCK REPAIR TABLE),排除 4 个表。 我究竟做错了什么? 我将收到以下错误消息: AttributeError Traceback(最后一次调用) <command-2033459303290955> in ...

如何使用 PySpark/Spark 流将数据并行合并到数据块增量表的分区中?

[英]How to parallelly merge data into partitions of databricks delta table using PySpark/Spark streaming?

我有一个 PySpark 流式管道,它从 Kafka 主题读取数据,数据经过各种转换,最后合并到数据块增量表中。 一开始,我们使用合并 function 将数据加载到增量表中,如下所示。 这个传入的 dataframe inc_df 包含所有分区的数据。 我们在表级别执行上述查询。 我在下图中给出 ...

将 parquet 文件写入 Azure data lake storage gen 2 时出错

[英]Getting error while writing parquet files to Azure data lake storage gen 2

您好,我有一个用例,我正在读取镶木地板文件并将其写入 ADLG Gen 2。这没有对数据进行任何修改。 我的代码: 我收到此错误,有任何解决方法的想法:在这里,我分享了我收到的所有与异常相关的消息。 org.apache.spark.SparkException:作业中止。 at org.apa ...

Pyspark 从带填充的行创建滑动 windows

[英]Pyspark create sliding windows from rows with padding

我正在尝试将行组收集到表示为向量的滑动 windows 中。 给定示例输入: 预期的 output 将是: 我最近的尝试产生了没有填充的翻滚 windows。 这是我的代码: 我试着寻找它的变体,也许通过执行 SQL 查询,就像在这种情况下,或者使用一些内置的 SQL function 例如ROW ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM