标签[lsh] - 堆栈内存溢出

反向 TF-IDF 向量 (vec2text) - Reverse TF-IDF vector (vec2text)

给定某个文档上生成的 doc2vec 向量。是否可以将矢量反转回原始文档？如果是这样，是否存在任何 hash 算法可以使向量不可逆但仍与相同类型的其他向量相当（使用余弦/欧几里德距离）？ ...

Pyspark LSH 后跟余弦相似度 - Pyspark LSH Followed by Cosine Similarity

我有很多用户，每个用户都有一个关联的向量。我想计算每个用户之间的余弦相似度。这是基于大小的禁止。似乎 LSH 是一个很好的近似步骤，我知道这将创建存储桶，在这种情况下，用户被映射到同一个存储桶，它们很可能是相似的。在 Pyspark 中，以下示例：任何关于如何最好地设置 bucketL ...

是否有任何散列 function 为几乎相似的输入生成相同的结果？ - Is there any hashing function which generates same results for nearly similar input?

我想实现一个需要散列 function 的问题解决方案，它返回相同的 output 以获得类似的输入。输入将是一些代码，我希望散列 function 忽略变量名称等。如果没有这样的散列 function 可用，那么我如何使用其他散列算法来实现它。请问有什么建议吗？ ...

如何选择 Elastiknn LSH Jaccard 相似度指标参数 L 和 k ？就我而言，我的 minhash 大小 = 100，jaccard 相似度 = 0.8 - How to choose Elastiknn LSH Jaccard similarity index parameters L and k ? In my case I have minhash size = 100, and jaccard Similarity = 0.8

我正在尝试使用 Elasticknn 插件检测接近重复的内容。我创建了文本文档的 minhashes，Minhash 设置大小 = 100 我想使用 Elasticknn 插件应用具有 Jaccard 相似度的 LSH（因为它有这种类型的索引可用，）根据我对 LSH、Minhash 重复检 ...

使用 Apache Beam 和 Dataflow 构建 LSH 表的最佳方法 - Best approach for building an LSH table using Apache Beam and Dataflow

我有一个 LSH 表生成器实用程序类，如下所示（从这里引用）： class BuildLSHTable: def __init__(self, hash_size=8, dim=2048, num_tables=10, lsh_file="lsh_table.pkl"): s ...

Spark LSH 管道，增加文本长度时的性能问题 - Spark LSH pipeline, performance issues when increasing text length

从这个例子开始，我在 Pyspark 上使用了局部敏感哈希 (LSH) 来查找重复的文档。关于我的数据库的一些注释：我有 4M 文本文件。每个文件平均有 20K 个字符。目前，我只考虑每个文档的前 500 个字符。当我将字符数从 500 增加到 1000 时，我得到 memory 错误。我 ...

火花结构化流的 LSHModel - LSHModel on spark structured streaming

显然，来自 spark 2.4 的 MLLib 的 LSHModel 支持 Spark Structured Streaming ( https://issues.apache.org/jira/browse/SPARK-24465 )。但是，我不清楚如何。例如，来自approxSimilar ...

使用 PySpark 计算 Jaccard 距离的对数小于应有的数 - Number of pairs in calculating Jaccard distance using PySpark are less than they should be

我正在尝试以 SparseVectors 的形式计算某些 id 与它们的属性之间的 Jaccard 距离。 df 有两列， id和sparse_vector 。 id列是字母数字 id， sparse_vector列包含这样的记录SparseVector(243775, {0: 1.0, 1: ...

有没有办法对 scipy.sparse 矩阵进行快速 boolean 操作？ - Is there a way to have fast boolean operations on scipy.sparse matrices?

我必须解决非常高维（~30'000）向量的异或运算来计算汉明距离。例如，我需要计算一个充满 False 的向量与 16 个位置稀疏的 True 与 50'000x30'000 矩阵的每一行之间的 XOR 运算。截至目前，我发现最快的方法是不使用 scipy.sparse 而是在每一行上使用简单 ...

如何在局部敏感散列 (LSH) 中将签名矩阵散列到桶中 - How to hash a signature matrix to buckets in Locality-sensitive hashing (LSH)

我了解通过应用哈希函数从带状疱疹创建签名矩阵背后的算法。但是我不明白如何将签名矩阵中的特定波段散列到桶中。假设在矩阵 M 的波段 b1 中，我们有以下文档 C1-C5 的值：仅通过查看这些值，我们就会看到 C2 和 C4 在该波段中是相同的，它们应该散列到同一个桶中。但其他列将散列到不同 ...

为什么 R 中的 textreuse packge 使 LSH 存储桶比原始 minhashes 大得多？ - Why does textreuse packge in R make LSH buckets way larger than the original minhashes?

据我了解，LSH 方法的主要功能之一是数据减少，甚至超出底层哈希（通常是 minhashes）。我一直在 R 中使用textreuse package，我对它生成的数据大小感到惊讶。 textreuse是经过同行评审的ROpenSci package，所以我认为它可以正常工作，但我的问题仍然存 ...

LSH 是否适用于 zip、jar、wim、iso 或任何类型的压缩文件？ - is LSH works for zip,jar, wim, iso or any kind of compressed files?

我想知道LSH（局部敏感散列）是否适用于任何类型的文件以查找最近的邻居？意味着我到处都注意到了，只使用文本文件，但我想找到 wim、iso 和 zip 文件。那么它也适用于 wim、iso 和 zip 文件。提前致谢 ...

使用笛卡尔的jaccard相似度 - jaccard similarity using cartesian

我有这段代码： cm 包含 = [ column-for-document1，column-for-document-2，column-for-document3 ] 其中 column-for-document1 看起来像这样 (1, 0, 1, 1, 0, 0, 1, 1 ) 我需要计算 JS ...

局部敏感哈希在 Python 中找到最近的邻居 - Locality Sensitive Hashing to find nearest neighbours in Python

我正在使用此链接来解决我的问题我有一种情况，我使用位置敏感度散列来查找 3 个最近的邻居。我的数据集有 22 列分类列和连续列，大约有 5000 行。我正在使用以下代码运行 LSH：我收到此错误： ValueError: data type must provide an itemsiz ...

android studio 上的 LSH - LSH on android studio

嗨，我正在尝试制作一个用于确定相似性图像的 android 应用程序，我的模型使用 lsh，所以我如何在 android studio 上使用 java 来实现它。 ...

如何计算 pyspark RDD 中每对行中相等值的数量 - How to count number of equal values in each pair of rows in a pyspark RDD

我正在尝试在 pyspark 中实现 LSH，为此我为我的集合中的每个文档创建了 min-hash 签名，然后将其划分为波段（这里我发布了一个只有 2 个波段和一个由 5 个哈希组成的签名的简化示例。我使用了这个 function：而那个 function 返回了这个 output：使用此方案 ...

LSH即时分类 - LSH Binning On-The-Fly

我想使用MinHash LSH将大量文档装到类似文档的存储桶中（Jaccard相似性）。问题：是否可以在不了解其他文档的MinHash的情况下计算MinHash的存储桶？据我了解，LSH“只是”计算MinHashes的哈希值。这样应该有可能吗？我发现很不容易的一种实 ...

LSH-带状疱疹的二进制矩阵表示 - LSH - Binary matrix representation from shingles

我有大量新闻文章，准确来说是48000。每篇文章我都做了ngram，其中n = 3 。我的ngram看起来像这样：现在，我需要为每个瓦片和文章制作一个二进制矩阵：起初，我把所有的瓦片都放在一个列表中。在那之后，我尝试了一下以检查它是否有效。因为一个被设置 ...

增加 MinHashLSH 中的哈希表，降低准确性和 f1 - Increase of hash tables in MinHashLSH, decreases accuracy and f1

我已经将 MinHashLSH 与 Scala 和 Spark 2.4 结合使用，以找到网络之间的边。基于文档相似度的链接预测。我的问题是，当我增加 MinHashLSH 中的哈希表时，我的准确性和 F1 分数正在下降。我已经为这个算法阅读的所有内容都表明我有一个问题。我尝试了不同数量的哈 ...

如何使用Scala在Spark中评估minHashLSH？ - How to evaluate minHashLSH in Spark with scala?

我有一个学术论文集，它有27770篇论文（节点）和另一个文件（图形文件），其原始边缘长352807个条目。我想计算minHashLSH来查找相似的文档并预测两个节点之间的链接！在下面，您可以看到我的尝试在Scala的Spark上实现此功能。我面临的问题是我不知道如何评估结果！ ...