使用Spark在AWS上的python中的大型矩陣的SVD

Question

我正在將一個應用程序遷移到AWS，該應用程序需要計算一個大的對稱正值矩陣，然后進行SVD /特征分解以恢復一些關鍵特征向量和特征值。 矩陣的邊緣大小可能為100K或更大，因此我正在Spark中尋找分布式運算符來執行SVD運算，而不是直接scipy / numpy svd運算符。 我不是在假設稀疏。 有人可以建議如何使用Spark執行SVD嗎？

Answer 1

Spark版本2.2.0具有用於奇異值分解的python API。

# convert your rdd into RowMatrix
rm = RowMatrix(data_rdd)
# if number of components you wish to retain is p then
svd = rm.computeSVD(p, True)
U = svd.U
S = svd.S
V = svd.V

使用Spark在AWS上的python中的大型矩陣的SVD

問題描述

1 個解決方案

解決方案1
0 2017-11-11 21:28:01

使用Spark在AWS上的python中的大型矩陣的SVD

問題描述

1 個解決方案

解決方案1 0 2017-11-11 21:28:01

解決方案1
0 2017-11-11 21:28:01