标签[pandas-udf] - 堆栈内存溢出

Azure Databrickd:- PythonException: 'RuntimeError: 标量迭代器 pandas UDF 中 output 的长度应与输入相同； - Azure Databrickd:- PythonException: 'RuntimeError: The length of output in Scalar iterator pandas UDF should be the same with the input's;

环境：Azure Databricks 集群：11.3 LTS（包括 Apache Spark 3.3.0、Scala 2.12）我有pandas_udf ，它为 4 行工作，但我尝试了 4 行以上的错误。 PythonException: 'RuntimeError: 标量迭代器 panda ...

pandas udf into 数组类型的列 - pandas udf into column in array type

我的任务是将以下内容存储到数组类型的列中：当我运行 cmd 时，出现了这个错误： TypeError: anomaly_detections() 采用 1 个位置参数，但给出了 2 个任何帮助将不胜感激我期望列“deviceIssues”将在 arraytype 列中。 ...

pandas_udf 错误，向量预期为 1，得到 2 - Error in pandas_udf with the vector expected 1, got 2

我试图获取带有纬度和经度的国家/地区名称作为输入，因此我使用了 Nominatim API 并且当我作为 UDF 传递时它有效，但是当我尝试使用 pandas_udf 时出现以下错误： UDF 抛出异常：“RuntimeError：来自 pandas_udf 的结果向量不是所需的长度：预期 1， ...

使用 pandas udf 不在 pyspark 中循环 - Using pandas udf without looping in pyspark

所以假设我有一个大火花 dataframe。我不知道有多少列。（解决方案必须在 pyspark 中使用 pandas udf。不是不同的方法）我想对所有列执行操作。所以可以在所有列中循环但我不想遍历行。我希望它立即作用于列。我没有在 inte.net 上找到如何做到这一点。假设我有这个 ...

Pandas UDF 结构域返回 - Pandas UDF Structfield return

我正在尝试从 Pyspark 中的 Pandas UDF 返回一个 StructField，该 UDF 与具有以下 function 签名的聚合一起使用：但事实证明不支持返回类型。有没有其他方法可以达到同样的目的。我可以制作三个 Pandas udf 并返回原始类型并且可以工作，但是 func ...

Pandas UDF，带有字典查找和条件 - Pandas UDF with dictionary lookup and conditionals

我想在 Pyspark 中使用 pandas_udf 进行某些列的转换和计算。而且似乎 pandas udf 不能完全像普通 UDF 那样写。示例 function 如下所示：基本上，从火花 dataframe 中获取两列值并返回我打算与withColumn一起使用的值：但这不起作用。我应 ...

Geopandas 转换 crs - Geopandas convert crs

我创建了一个 geopandas dataframe，其中包含 5000 万条记录，其中包含 CRS 3857 中的纬度经度，我想转换为 4326。由于数据集很大，geopandas 无法转换 this.我如何以分布式方式执行此操作。 ...

使用 pandas_udf 应用 wordninja.split() - Apply wordninja.split() using pandas_udf

我有一个 dataframe df ，其列sld为 string 类型，其中包括一些没有空格/分隔符的连续字符。可用于拆分的库之一是 wordninja：例如wordninja.split('culturetosuccess')输出['culture','to','success'] 使用pa ...

使用 Pandas UDF 遍历数据帧并输出数据帧 - Iterating through a DataFrame using Pandas UDF and outputting a dataframe

我有一段代码想在 PySpark 中翻译成 Pandas UDF，但我在理解是否可以使用条件语句时遇到了一些麻烦。 def is_pass_in(df): x = list(df["string"]) result = [] for i in x: if "p ...

PySpark：用于 scipy 统计转换的 Pandas UDF - PySpark: Pandas UDF for scipy statistical transformations

我正在尝试在 Spark 数据帧上创建一列 x 列的标准化（z 分数）列，但由于没有一个工作正常而缺少一些东西。这是我的例子：这导致明显错误的计算：谢谢您的帮助。 ...

与作为作业运行时相比，Databricks 笔记本在手动触发时运行速度更快 - Databricks notebook runs faster when triggered manually compared to when run as a job

我不知道这个问题是否已经在前面讨论过，但它是这样的 - 我有一个笔记本，我可以使用笔记本中的“运行”按钮手动运行或作为一项工作。直接运行笔记本的运行时间大约是 2 小时。但是当我将它作为一项工作执行时，运行时间非常长（大约 8 小时）。花费时间最长的一段代码调用了 applyInPandas ...

将一组列除以 Pyspark 中的平均值 - Dividing a set of columns by its average in Pyspark

我必须将 pyspark.sql.dataframe 中的一组列除以它们各自的列平均值，但我找不到正确的方法。下面是示例数据和我目前的代码。输入数据预计 Output 截至目前Function。不工作： ...

pyspark SparseVectors dataframe columns.dot product 或使用@udf 或@pandas_udf 的任何其他向量类型的列计算 - pyspark SparseVectors dataframe columns .dot product or any other vectors type column computation using @udf or @pandas_udf

我确实尝试计算给定 dataframe 的 2 列之间的.dot积， SparseVectors已经在 spark 中具有这种能力所以我尝试以一种简单且可扩展的方式执行它而不转换为RDD或DenseVectors但我被卡住了，过去了3 天尝试找出一种方法，但确实失败了，不返回从 dataframe ...

并行化 MLflow 项目在 Azure Databricks Spark 上使用 Pandas UDF 运行 - Parallelize MLflow Project runs with Pandas UDF on Azure Databricks Spark

我正在尝试在 Azure Databricks 上使用 Spark 并行化多个时间序列的训练。除了培训，我还想使用 MLflow 记录指标和模型。代码结构很简单（基本上改编了这个例子）。 Databricks 笔记本触发 MLflow 项目主叫function 。它基本上执行三个步骤：读 ...

PySpark UDF 到 Pandas UDF 用于刺柱 - PySpark UDF to Pandas UDF for sting columns

我确实有一个对于大型数据集来说很慢的 UDF，我尝试通过利用pandas_udfs来提高执行时间和可扩展性，所有搜索和官方文档都更加关注我已经使用的标量和映射方法，但我确实未能扩展到系列或 pandas dataframe 方法，你能指出我正确的方向吗？我确实想并行执行，并且当前的 UDF 方法非 ...