给定某个文档上生成的 doc2vec 向量。 是否可以将矢量反转回原始文档? 如果是这样,是否存在任何 hash 算法可以使向量不可逆但仍与相同类型的其他向量相当(使用余弦/欧几里德距离)? ...
给定某个文档上生成的 doc2vec 向量。 是否可以将矢量反转回原始文档? 如果是这样,是否存在任何 hash 算法可以使向量不可逆但仍与相同类型的其他向量相当(使用余弦/欧几里德距离)? ...
我有很多用户,每个用户都有一个关联的向量。 我想计算每个用户之间的余弦相似度。 这是基于大小的禁止。 似乎 LSH 是一个很好的近似步骤,我知道这将创建存储桶,在这种情况下,用户被映射到同一个存储桶,它们很可能是相似的。 在 Pyspark 中,以下示例: 任何关于如何最好地设置 bucketL ...
我想实现一个需要散列 function 的问题解决方案,它返回相同的 output 以获得类似的输入。 输入将是一些代码,我希望散列 function 忽略变量名称等。 如果没有这样的散列 function 可用,那么我如何使用其他散列算法来实现它。 请问有什么建议吗? ...
我正在尝试使用 Elasticknn 插件检测接近重复的内容。 我创建了文本文档的 minhashes,Minhash 设置大小 = 100 我想使用 Elasticknn 插件应用具有 Jaccard 相似度的 LSH(因为它有这种类型的索引可用,) 根据我对 LSH、Minhash 重复检 ...
我有一个 LSH 表生成器实用程序类,如下所示(从这里引用): class BuildLSHTable: def __init__(self, hash_size=8, dim=2048, num_tables=10, lsh_file="lsh_table.pkl"): s ...
从这个例子开始,我在 Pyspark 上使用了局部敏感哈希 (LSH) 来查找重复的文档。 关于我的数据库的一些注释:我有 4M 文本文件。 每个文件平均有 20K 个字符。 目前,我只考虑每个文档的前 500 个字符。 当我将字符数从 500 增加到 1000 时,我得到 memory 错误。 我 ...
显然,来自 spark 2.4 的 MLLib 的 LSHModel 支持 Spark Structured Streaming ( https://issues.apache.org/jira/browse/SPARK-24465 )。 但是,我不清楚如何。 例如,来自approxSimilar ...
我正在尝试以 SparseVectors 的形式计算某些 id 与它们的属性之间的 Jaccard 距离。 df 有两列, id和sparse_vector 。 id列是字母数字 id, sparse_vector列包含这样的记录SparseVector(243775, {0: 1.0, 1: ...
我必须解决非常高维(~30'000)向量的异或运算来计算汉明距离。 例如,我需要计算一个充满 False 的向量与 16 个位置稀疏的 True 与 50'000x30'000 矩阵的每一行之间的 XOR 运算。 截至目前,我发现最快的方法是不使用 scipy.sparse 而是在每一行上使用简单 ...
我了解通过应用哈希函数从带状疱疹创建签名矩阵背后的算法。 但是我不明白如何将签名矩阵中的特定波段散列到桶中。 假设在矩阵 M 的波段 b1 中,我们有以下文档 C1-C5 的值: 仅通过查看这些值,我们就会看到 C2 和 C4 在该波段中是相同的,它们应该散列到同一个桶中。 但其他列将散列到不同 ...
据我了解,LSH 方法的主要功能之一是数据减少,甚至超出底层哈希(通常是 minhashes)。 我一直在 R 中使用textreuse package,我对它生成的数据大小感到惊讶。 textreuse是经过同行评审的ROpenSci package,所以我认为它可以正常工作,但我的问题仍然存 ...
我想知道LSH(局部敏感散列)是否适用于任何类型的文件以查找最近的邻居? 意味着我到处都注意到了,只使用文本文件,但我想找到 wim、iso 和 zip 文件。 那么它也适用于 wim、iso 和 zip 文件。 提前致谢 ...
我有这段代码: cm 包含 = [ column-for-document1,column-for-document-2,column-for-document3 ] 其中 column-for-document1 看起来像这样 (1, 0, 1, 1, 0, 0, 1, 1 ) 我需要计算 JS ...
我正在使用此链接来解决我的问题 我有一种情况,我使用位置敏感度散列来查找 3 个最近的邻居。 我的数据集有 22 列分类列和连续列,大约有 5000 行。 我正在使用以下代码运行 LSH: 我收到此错误: ValueError: data type must provide an itemsiz ...
嗨,我正在尝试制作一个用于确定相似性图像的 android 应用程序,我的模型使用 lsh,所以我如何在 android studio 上使用 java 来实现它。 ...
我正在尝试在 pyspark 中实现 LSH,为此我为我的集合中的每个文档创建了 min-hash 签名,然后将其划分为波段(这里我发布了一个只有 2 个波段和一个由 5 个哈希组成的签名的简化示例。 我使用了这个 function: 而那个 function 返回了这个 output: 使用此方案 ...
我想使用MinHash LSH将大量文档装到类似文档的存储桶中(Jaccard相似性)。 问题 :是否可以在不了解其他文档的MinHash的情况下计算MinHash的存储桶? 据我了解,LSH“只是”计算MinHashes的哈希值。 这样应该有可能吗? 我发现很不容易的一种实 ...
我有大量新闻文章,准确来说是48000。 每篇文章我都做了ngram,其中n = 3 。 我的ngram看起来像这样: 现在,我需要为每个瓦片和文章制作一个二进制矩阵: 起初,我把所有的瓦片都放在一个列表中。 在那之后,我尝试了一下以检查它是否有效。 因为一个被设置 ...
我已经将 MinHashLSH 与 Scala 和 Spark 2.4 结合使用,以找到网络之间的边。 基于文档相似度的链接预测。 我的问题是,当我增加 MinHashLSH 中的哈希表时,我的准确性和 F1 分数正在下降。 我已经为这个算法阅读的所有内容都表明我有一个问题。 我尝试了不同数量的哈 ...
我有一个学术论文集,它有27770篇论文(节点)和另一个文件(图形文件),其原始边缘长352807个条目。 我想计算minHashLSH来查找相似的文档并预测两个节点之间的链接! 在下面,您可以看到我的尝试在Scala的Spark上实现此功能。 我面临的问题是我不知道如何评估结果! ...