簡體   English   中英

使用Spark在AWS上的python中的大型矩陣的SVD

[英]SVD of large matrix in python on aws using spark

我正在將一個應用程序遷移到AWS,該應用程序需要計算一個大的對稱正值矩陣,然后進行SVD​​ /特征分解以恢復一些關鍵特征向量和特征值。 矩陣的邊緣大小可能為100K或更大,因此我正在Spark中尋找分布式運算符來執行SVD運算,而不是直接scipy / numpy svd運算符。 我不是在假設稀疏。 有人可以建議如何使用Spark執行SVD嗎?

Spark版本2.2.0具有用於奇異值分解的python API。

# convert your rdd into RowMatrix
rm = RowMatrix(data_rdd)
# if number of components you wish to retain is p then
svd = rm.computeSVD(p, True)
U = svd.U
S = svd.S
V = svd.V

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM