cost 96 ms
计算大 DataFrame 成对余弦相似度的最有效方法 - Most efficient way of computing pairwise cosine similarity for large DataFrame

我有一个由多列组成的 300.000 行pd.DataFrame ,其中一个是 50 维numpy形状数组(1,50) ,如下所示: 然后,我生成一个具有相同形状的新numpy数组(我们称之为array2 ),并计算dataframe 的每一行与生成的数组之间的余弦相似度。 为此,我目前正在使用sk ...

新闻文章推荐系统 - Recommendation system for news articles

我正在尝试为类似文章创建推荐系统。 我确实有一个文章列表作为参考,我希望我从某个 API 获得的其他新文章需要与这些参考文章相似。 我可以采用的一种方法是将所有这些参考文章合并为一篇大文章并运行余弦相似度并获取与合并参考文章相似的文章列表。 还有其他方法可以实现余弦相似度吗? 谢谢 ...

如何将 TS-SS 结果转换为 0 - 1 之间的相似性度量? - How to convert TS-SS result to similarity measure between 0 - 1?

我目前正在为一些 LMS 开发一个问题插件,它根据答案和答案键之间的相似性与余弦相似性自动对答案进行评分。 但最近,我发现有一种更好的算法,它被称为TS-SS ,承诺会更准确。 但是,计算结果为 0 - 无穷大。 作为一个机器学习专家,我假设结果可能是一个距离,就像欧几里德距离一样,但我不确定。 ...

如何更准确地从字符串中识别和提取颜色名称? - How can color names be more accurately recognised and extracted from strings?

尽管文本中存在细微的变化或拼写错误,但我用来识别和提取颜色名称的方法可能是一种幼稚的方法,在第一次投掷时,英语比德语效果更好,但挑战似乎大致相同。 不同的拼写grey/gray或weiß/weiss ,从人类的角度来看相似性似乎并不大,但从 word2vec 的角度来看, grey和green更相 ...

计算同态加密向量之间的距离度量 - Calculate Distance Metric between Homomorphic Encrypted Vectors

有没有办法计算两个同态加密向量之间的距离度量(欧几里德或余弦相似性或曼哈顿)? 具体来说,我希望生成文档的嵌入(使用转换器),同态加密这些嵌入,并希望计算嵌入之间的距离度量以获得文档相似性分数。 我已经评估了像 concrete-numpy、TenSEAL 和 Pyfhel(HE 库)这样的库,每个 ...

在 .NET 中有效计算一个向量与多个向量的余弦相似度的最快方法是什么? - What is the fastest method of efficiently calculating cosine similarity of one vector to many in .NET?

下面是我目前使用的代码。 我将由 768 个浮点数组成的向量与其他 50k 个浮点数进行比较,大约需要 800 毫秒。 我假设有一个更快的实现,要么在 C# 中,要么在我可以使用的一些 package 中,它可以在本地进行计算,但我找不到它。 谢谢!// USAGE: // vectors is ...

Python:具有同义词的句子之间的余弦相似度 - Python: Cosine similarity between sentences with synonyms

如果两个句子有同义词形式的任何共同词,如何计算余弦相似度。 例如, sent1 = "你是个优秀的程序员。" sent2 = "我是新程序员" 在这里考虑coder是程序员的同义词。 在不将这两个特定单词视为同义词的情况下,我得到的余弦分数为零(0) 。 但考虑到同义词,它应该给出一些余弦值。 ...

两个数据集上的 PCA 计算相似度分数 - PCA on two datasets to calculate similarity scores

我正在开展一个项目,其中包含 2 个独立的零售数据集,其中包含相同的人口统计特征,每一行代表一个与零售店相对应的人口普查区。 'df1'是关于商店类型A和'df2'是关于商店类型B 。 目标是找出哪些 A 商店与 B 商店相似。 假设两个数据集都已经清理完毕并可以使用了。 也就是说,“Tract” ...

Doc2Vec 如何找到最相似的文档 - Doc2Vec How to find most similar document

我正在使用 Gensim 的 Doc2Vec,并且想知道是否有办法让另一个文档与用于训练 Doc2Vec model 的 TaggedDocuments列表之外的另一个文档最相似。 现在我可以从不在训练集中的文档中推断出一个向量: 这会打印出“doc_not_in_training_set”字符串的 ...

Huggingface 变形金刚 FAISS 指数得分 - Huggingface Transformers FAISS index scores

Huggingface 转换器库有一个非常棒的功能:它可以在嵌入数据集上创建一个 FAISS 索引,允许搜索最近的邻居。 我试图理解scores的重要性及其背后的直觉。 例如,如果我们要将余弦相似度和 faiss 搜索分数联系起来,这就是我们得到的: 我们得到这个: 如您所见,余弦相似度非常一致, ...

将余弦相似度嵌入从矩阵转换为 pandas dataframe - convert cosine similarity embeddings from matrix to pandas dataframe

我在将数组中的余弦相似度分配回 pandas Dataframe 时遇到问题。 我已经使用下面的代码测试了余弦相似度矩阵 下面是代码生产的output 但是我想将相似度得分写回 Dataframe 结构如下 复制示例的虚拟数据代码 **详细示例可以在这里找到https://www.codegr ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM