[英]SVD of large matrix in python on aws using spark
我正在將一個應用程序遷移到AWS,該應用程序需要計算一個大的對稱正值矩陣,然后進行SVD /特征分解以恢復一些關鍵特征向量和特征值。 矩陣的邊緣大小可能為100K或更大,因此我正在Spark中尋找分布式運算符來執行SVD運算,而不是直接scipy / numpy svd運算符。 我不是在假設稀疏。 有人可以建議如何使用Spark執行SVD嗎?
Spark版本2.2.0具有用於奇異值分解的python API。
# convert your rdd into RowMatrix
rm = RowMatrix(data_rdd)
# if number of components you wish to retain is p then
svd = rm.computeSVD(p, True)
U = svd.U
S = svd.S
V = svd.V
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.