cost 20 ms
withColumn 仅将值添加到 pyspark 中的 dataframe 的第一行

withColumn 仅将值添加到 pyspark 中的 dataframe 的第一行 我正在尝试根据过滤条件过滤行,如果任何行在“语言”列中有空格,或者“用户计数”列中的值大于 1000,则应用程序将在“错误”中添加适当的错误消息' 像这样的列,无效的语言; 无效的用户数。 但是“错误”列中的此 ...

2022-08-15 14:01:53 1 11
定制 stream 水槽在 pyspark

我试图遵循此链接中的代码。 但是代码在 scala 中。 I want to know if there is an equivalent of StreamSinkProvider in pyspark or if there is an other way to build a custom ...

2022-08-14 19:37:32 0 11
如何将多值数组的值放入单行

我有包含嵌套 arrays 的 json 文件。 我正在使用爆炸 function 来压平 json。 以下是示例: 为每个项目符号创建一行,但我希望所有值都在一行中(不同的列)。 以下是示例: 下面是扁平化 arrays 的代码: pyspark 中是否有任何 function 将阵列展平为单 ...

2022-08-14 19:34:04 0 14
使用火花 dataframe 转置

我试图弄清楚如何使用 spark dataframe 来解决这个用例。 在下面的谷歌表中,我有源数据,其中将存储人们回答的调查问题。 此外,问题列将大约超过 1000 列,并且更加动态且不固定。 有一个元数据表,它解释了问题、它的描述和它可以包含的选项。 Output 表应该是我在工作表中提到的那 ...

2022-08-14 18:57:27 1 24
PySpark - 否则 - 条件应为列

我有一个 dataframe 如下 现在我使用下面的 select 语句。 我正在寻找列名的存在,如果存在 select 值,或者用 Null 填充。 dataframe 存储在 df 变量中。 我收到错误 <class 'TypeError'>: condition should b ...

2022-08-14 15:19:12 1 9
使用 pyspark windows 写入本地 hadoop

我有使用 pipenv 的虚拟环境,我有 当我做 我明白了 我的 hadoop 设置:- 但是,即使做了所有这些(在我在网上查看的所有地方都指定了),每当我这样做 为线 我不断收到错误 我什至重新启动了我的电脑(以防环境变量没有启动),尝试了 hadoop 版本 3.2.1 和 3.2.2 但没有 ...

2022-08-14 11:26:53 0 14
PySpark 标记列可为空:false

我有一个从 Kafka 读取的结构化 stream 并尝试使用 Struct 模式转换 JSON 有效负载。 将 json 模式转换为 Struct by 结果如下。 StructType.fromJson(jsonSchema) 使用此模式转换有效负载会产生一个数据帧模式,其中可空值设置为 t ...

2022-08-14 06:35:03 1 19
安装火花时遇到问题

spark-shell 命令给了我以下错误。 我很困惑,因为 spark-submit 存在于 /usr/local/bin 中。 我尝试了几种不同的方法,但它似乎不起作用,有人知道如何解决这个问题吗? ''' /Library/Frameworks/Python.framework/Versi ...

2022-08-13 23:38:27 0 13
PySpark 数据帧何时使用。select() 与。 .withColumn()?

我是 PySpark 的新手,我看到 PySpark 中的 select 列有两种方法,可以使用“.select()”或“.withColumn()”。 据我所知,“.withColumn()”的性能更差,但除此之外,我对为什么有两种方法可以做同样的事情感到困惑。 那么我什么时候应该使用“.sel ...

2022-08-13 19:15:50 2 24
在 emr 上的 pyspark jupyter notebook 中创建折线图

我在 aws emr 上运行 pyspark。 我有一个 jupyter 笔记本,在 aws emr 上的 jupyter hub 中运行。 我已将数据读入名为 clusters_df 的 spark dataframe。 我不是要创建一个简单的折线图,其中 k 为 x 轴,得分为 y 轴。 我尝试 ...

2022-08-13 17:04:32 0 9
最佳 pyspark ML 管道设置以减少运行时间

我有一个有近 100 个模型的Pipeline ,像这样组装 此时我调用fit和transform方法来训练模型并得到我的预测 然而,在具有 100 多个内核(1 个主实例,最多 9 个内核实例,每个都设置有 64 个 vCPU 的自动扩展)的 EMR 集群上,看似简单的调用需要很长时间。 我遇到了 ...

2022-08-13 16:41:54 0 14

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM