繁体 English 中英

Spark 2 中是否有没有交叉连接的替代解决方案？

[英]Are there alternative solution without cross-join in Spark 2?

原文 2018-03-04 04:55:01 7 1 scala/ apache-spark/ user-defined-functions

堆栈溢出！

不知道Spark 2.0有没有什么奇特的方法来解决下面的情况。 情况是这样的。

数据集 1 (TargetData) 具有此架构并且有大约 2000 万条记录。

id（字符串）
嵌入结果向量（数组，300 暗）

Dataset2 (DictionaryData) 有这个模式并且有大约 9,000 条记录。

字典键（字符串）
嵌入结果向量（数组，300 暗）

对于数据集 1 中的每个记录向量，我想找到当我计算它与数据集 2 的余弦相似度时最大的字典键。

最初，我尝试交叉连接 dataset1 和 dataset2 并计算所有记录的余弦相似度，但数据量太大，无法在我的环境中使用。

我还没有尝试过，但我想到了将 dataset2 收集为一个列表，然后应用 udf。

在这种情况下还有其他方法吗？ 谢谢，

1 个解决方案

可能有两种选择，一种是广播Dataset2，因为您需要为 Dataset1 的每一行扫描它，从而通过从不同节点访问它来避免网络延迟。 当然，在这种情况下，您首先需要考虑您的集群是否可以处理 9000 行 x 300 列的内存成本（我认为不是太大）。 此外，您仍然需要加入，尽管广播应该更快。 另一种选择是从您现有的向量中填充RowMatrix并让 spark 为您进行计算

在 2 个数据帧 Scala Spark 之间的交叉连接上应用函数

[英]Apply function on a cross-join between 2 dataframes Scala Spark

Spark Join *无*洗牌

[英]Spark join *without* shuffle

是否有替代方法可以在 spark 中进行迭代加入 - scala

[英]Is there an alternative to do iterative join in spark - scala

Spark中两个大型数据集之间的交叉连接

[英]Cross join between two large datasets in Spark

如何在Spark SQL中使用CROSS JOIN和CROSS APPLY

[英]How to use CROSS JOIN and CROSS APPLY in Spark SQL

使用/不使用Spark SQL加入两个普通RDD

[英]Join two ordinary RDDs with/without Spark SQL

处理数据倾斜而不加盐火花中的连接键

[英]Handling dataskew without salting the join key in spark

在不更改 Spark 属性的情况下进行连接时未广播的数据帧示例

[英]Example of dataframe not broadcasted while doing a join without changing Spark Properties

在Spark中替代groupBy

[英]Alternative to groupBy in Spark

Spark：如何像使用groupByKey一样，使用reduceByKey获得相同的结果？避免洗牌

[英]Spark: How to get same result using reduceByKey like we get by using groupByKey any alternative solution? to avoid shuffle

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 2 个数据帧 Scala Spark 之间的交叉连接上应用函数 Spark Join *无*洗牌是否有替代方法可以在 spark 中进行迭代加入 - scala Spark中两个大型数据集之间的交叉连接如何在Spark SQL中使用CROSS JOIN和CROSS APPLY 使用/不使用Spark SQL加入两个普通RDD 处理数据倾斜而不加盐火花中的连接键在不更改 Spark 属性的情况下进行连接时未广播的数据帧示例在Spark中替代groupBy Spark：如何像使用groupByKey一样，使用reduceByKey获得相同的结果？避免洗牌

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM