cost 226 ms
Pyspark LSH 后跟余弦相似度 - Pyspark LSH Followed by Cosine Similarity

我有很多用户,每个用户都有一个关联的向量。 我想计算每个用户之间的余弦相似度。 这是基于大小的禁止。 似乎 LSH 是一个很好的近似步骤,我知道这将创建存储桶,在这种情况下,用户被映射到同一个存储桶,它们很可能是相似的。 在 Pyspark 中,以下示例: 任何关于如何最好地设置 bucketL ...

是否有任何散列 function 为几乎相似的输入生成相同的结果? - Is there any hashing function which generates same results for nearly similar input?

我想实现一个需要散列 function 的问题解决方案,它返回相同的 output 以获得类似的输入。 输入将是一些代码,我希望散列 function 忽略变量名称等。 如果没有这样的散列 function 可用,那么我如何使用其他散列算法来实现它。 请问有什么建议吗? ...

如何选择 Elastiknn LSH Jaccard 相似度指标参数 L 和 k ? 就我而言,我的 minhash 大小 = 100,jaccard 相似度 = 0.8 - How to choose Elastiknn LSH Jaccard similarity index parameters L and k ? In my case I have minhash size = 100, and jaccard Similarity = 0.8

我正在尝试使用 Elasticknn 插件检测接近重复的内容。 我创建了文本文档的 minhashes,Minhash 设置大小 = 100 我想使用 Elasticknn 插件应用具有 Jaccard 相似度的 LSH(因为它有这种类型的索引可用,) 根据我对 LSH、Minhash 重复检 ...

Spark LSH 管道,增加文本长度时的性能问题 - Spark LSH pipeline, performance issues when increasing text length

从这个例子开始,我在 Pyspark 上使用了局部敏感哈希 (LSH) 来查找重复的文档。 关于我的数据库的一些注释:我有 4M 文本文件。 每个文件平均有 20K 个字符。 目前,我只考虑每个文档的前 500 个字符。 当我将字符数从 500 增加到 1000 时,我得到 memory 错误。 我 ...

使用 PySpark 计算 Jaccard 距离的对数小于应有的数 - Number of pairs in calculating Jaccard distance using PySpark are less than they should be

我正在尝试以 SparseVectors 的形式计算某些 id 与它们的属性之间的 Jaccard 距离。 df 有两列, id和sparse_vector 。 id列是字母数字 id, sparse_vector列包含这样的记录SparseVector(243775, {0: 1.0, 1: ...

有没有办法对 scipy.sparse 矩阵进行快速 boolean 操作? - Is there a way to have fast boolean operations on scipy.sparse matrices?

我必须解决非常高维(~30'000)向量的异或运算来计算汉明距离。 例如,我需要计算一个充满 False 的向量与 16 个位置稀疏的 True 与 50'000x30'000 矩阵的每一行之间的 XOR 运算。 截至目前,我发现最快的方法是不使用 scipy.sparse 而是在每一行上使用简单 ...

如何在局部敏感散列 (LSH) 中将签名矩阵散列到桶中 - How to hash a signature matrix to buckets in Locality-sensitive hashing (LSH)

我了解通过应用哈希函数从带状疱疹创建签名矩阵背后的算法。 但是我不明白如何将签名矩阵中的特定波段散列到桶中。 假设在矩阵 M 的波段 b1 中,我们有以下文档 C1-C5 的值: 仅通过查看这些值,我们就会看到 C2 和 C4 在该波段中是相同的,它们应该散列到同一个桶中。 但其他列将散列到不同 ...

为什么 R 中的 textreuse packge 使 LSH 存储桶比原始 minhashes 大得多? - Why does textreuse packge in R make LSH buckets way larger than the original minhashes?

据我了解,LSH 方法的主要功能之一是数据减少,甚至超出底层哈希(通常是 minhashes)。 我一直在 R 中使用textreuse package,我对它生成的数据大小感到惊讶。 textreuse是经过同行评审的ROpenSci package,所以我认为它可以正常工作,但我的问题仍然存 ...

LSH 是否适用于 zip、jar、wim、iso 或任何类型的压缩文件? - is LSH works for zip,jar, wim, iso or any kind of compressed files?

我想知道LSH(局部敏感散列)是否适用于任何类型的文件以查找最近的邻居? 意味着我到处都注意到了,只使用文本文件,但我想找到 wim、iso 和 zip 文件。 那么它也适用于 wim、iso 和 zip 文件。 提前致谢 ...

局部敏感哈希在 Python 中找到最近的邻居 - Locality Sensitive Hashing to find nearest neighbours in Python

我正在使用此链接来解决我的问题 我有一种情况,我使用位置敏感度散列来查找 3 个最近的邻居。 我的数据集有 22 列分类列和连续列,大约有 5000 行。 我正在使用以下代码运行 LSH: 我收到此错误: ValueError: data type must provide an itemsiz ...

如何计算 pyspark RDD 中每对行中相等值的数量 - How to count number of equal values in each pair of rows in a pyspark RDD

我正在尝试在 pyspark 中实现 LSH,为此我为我的集合中的每个文档创建了 min-hash 签名,然后将其划分为波段(这里我发布了一个只有 2 个波段和一个由 5 个哈希组成的签名的简化示例。 我使用了这个 function: 而那个 function 返回了这个 output: 使用此方案 ...

LSH即时分类 - LSH Binning On-The-Fly

我想使用MinHash LSH将大量文档装到类似文档的存储桶中(Jaccard相似性)。 问题 :是否可以在不了解其他文档的MinHash的情况下计算MinHash的存储桶? 据我了解,LSH“只是”计算MinHashes的哈希值。 这样应该有可能吗? 我发现很不容易的一种实 ...

LSH-带状疱疹的二进制矩阵表示 - LSH - Binary matrix representation from shingles

我有大量新闻文章,准确来说是48000。 每篇文章我都做了ngram,其中n = 3 。 我的ngram看起来像这样: 现在,我需要为每个瓦片和文章制作一个二进制矩阵: 起初,我把所有的瓦片都放在一个列表中。 在那之后,我尝试了一下以检查它是否有效。 因为一个被设置 ...

增加 MinHashLSH 中的哈希表,降低准确性和 f1 - Increase of hash tables in MinHashLSH, decreases accuracy and f1

我已经将 MinHashLSH 与 Scala 和 Spark 2.4 结合使用,以找到网络之间的边。 基于文档相似度的链接预测。 我的问题是,当我增加 MinHashLSH 中的哈希表时,我的准确性和 F1 分数正在下降。 我已经为这个算法阅读的所有内容都表明我有一个问题。 我尝试了不同数量的哈 ...

如何使用Scala在Spark中评估minHashLSH? - How to evaluate minHashLSH in Spark with scala?

我有一个学术论文集,它有27770篇论文(节点)和另一个文件(图形文件),其原始边缘长352807个条目。 我想计算minHashLSH来查找相似的文档并预测两个节点之间的链接! 在下面,您可以看到我的尝试在Scala的Spark上实现此功能。 我面临的问题是我不知道如何评估结果! ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM