簡體 English 中英

如何有效地計算/估計非晶石矩陣中數十億對的余弦相似度？

[英]How to efficiently calculate/estimate cosine similarity for billions of pairs in a non-spars matrix?

原文 2020-07-22 16:16:26 6 1 scala/ apache-spark/ hadoop/ cosine-similarity

考慮一下我有 1000 萬個項目，每個項目都用 100 維實數向量標識（實際上它們是 word2vec 嵌入）。 對於每個項目，我想（大約）使用余弦相似度獲得與其最相似的前 200 個項目。 我當前的余弦相似度標准實現為 Hadoop（hive）中的 UDF function，與 1000 萬個其他項目相比，計算 1 項的余弦相似度大約需要 1 秒。 這使得運行整個矩陣變得不可行。 我的下一步是在 Spark 上運行它，並行化程度更高，但仍然不能完全解決問題。

我知道有一些方法可以減少晶石矩陣的計算。 但我的矩陣並不稀疏。

如何有效地為每個項目獲取最相似的項目？ 是否存在計算效率更高的余弦相似度近似值？

1 個解決方案

您可以壓縮向量以使分數計算更簡單。 通過新的距離方法，如漢明距離。

有一個關鍵詞叫vector quantization ，還有很多算法都在講向量壓縮。

這是一個使其與余弦相似度相媲美的示例。

https://github.com/tdebatty/java-LSH/blob/master/src/main/java/info/debatty/java/lsh/SuperBit.java#L208

計算 scala 中的余弦相似度

[英]calculate cosine similarity in scala

計算余弦相似度Spark數據幀

[英]Calculate Cosine Similarity Spark Dataframe

Spark Scala余弦相似度矩陣

[英]Spark Scala Cosine Similarity Matrix

用 dataframe Scala Spark 計算余弦相似度

[英]Calculate cosine similarity with a dataframe Scala Spark

Spark ml余弦相似度：如何獲得1到n相似度分數

[英]Spark ml cosine similarity: how to get 1 to n similarity score

Spark數據框中各列之間的余弦相似度

[英]Cosine-similarity between columns in a Spark dataframe

Scala Spark 中兩個稀疏向量的余弦相似度

[英]Cosine similarity of two sparse vectors in Scala Spark

使用Apache Spark在TFIDF上的余弦相似度

[英]Cosine similarity on TFIDF using apache spark

如何根據鄰接矩陣有效地更新權重？

[英]How to update the weights efficiently according to adjacency matrix?

通過使用 tf-idf 將文本特征化為向量來計算余弦相似度

[英]Calculating cosine similarity by featurizing the text into vector using tf-idf

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 計算 scala 中的余弦相似度計算余弦相似度Spark數據幀 Spark Scala余弦相似度矩陣用 dataframe Scala Spark 計算余弦相似度 Spark ml余弦相似度：如何獲得1到n相似度分數 Spark數據框中各列之間的余弦相似度 Scala Spark 中兩個稀疏向量的余弦相似度使用Apache Spark在TFIDF上的余弦相似度如何根據鄰接矩陣有效地更新權重？通過使用 tf-idf 將文本特征化為向量來計算余弦相似度

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM