繁体   English   中英

Apache Spark 中的 mapPartitions 和 foreachPartition 有什么区别

[英]What is the Difference between mapPartitions and foreachPartition in Apache Spark

我有一个 DataFrame,其中一列有逗号分隔的数据。

例如:数据看起来像这样:[{value:1}, {value:2, value:3}, {some value}, {somevalue, othervalue}]

该列是字符串数据类型。 我想将它转换为 List 并应用一些功能。 现在我有一个函数可以将字符串列转换为列表和其他应用逻辑。

但是哪个函数会更好和优化,因为我们有 2 个类似的声音函数mapPartitionsforeachPartitions ,它是否具有完全相同的性能以及在什么情况下使用哪个?

区别与 map 和 foreach 相同。 在这里寻找很好的解释 - foreach 和 map 之间有区别吗? .

mapPartitions 和 foreachPartitions 是应用于 Dataframe 的每个分区而不是每个元素的转换/操作。 请参阅此处了解对比 map 和 mapPartitions 的解释 - Apache Spark:map vs mapPartitions? .

根据您的描述,听起来您想要 map 或 foreach。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM