繁体 English 中英

计算文本相似度的最佳方法是什么？

[英]what is the best method to calculate text similarity?

原文 2019-11-07 04:10:46 0 1 python/ nlp/ nltk

有一些方法可以检索文本之间的相似性，例如 wup_similarity() cosine_similarity() 等。我的目的是制作一个论文答题系统。这意味着我想比较答题纸和评分方案。 到目前为止，我在没有使用任何培训或建模方法的情况下进行了以下操作。

1.预处理两个文档（删除标点符号，进行词形还原等）。

2.next我通过使用word-net syn-sets得到相似的单词并制作了两个大的arrays（标记方案及其同义词和答案表及其同义词） - 可能不是正确的方法。

3.然后我需要比较这两个大的 arrays 并想得到相似度值

您能否通过提供一些建议或答案来帮助我。 我知道 word-net syn-sets 不是最好的，因为它会给出不相关的答案。 例如：动物和车辆将返回 1 作为相似的值。

但是，我需要为此找到解决方案。

1 个解决方案

几乎每个搜索引擎都使用的标准方法是将 TF-IDF 向量与余弦相似度进行比较。 这可能对您的任务不公平，因为您正在谈论给定评分方案的论文评估。 这还包括检查重要命题的同一性（在动词-论证结构的意义上）和答案的修辞结构。 这一点很重要，因为“哥伦布探索美洲大陆”可能在语义上与“美洲大陆探索哥伦布”相关，但后者显然是无意义的（在大陆为主体的情况下）。 也许看看话语表示理论（DRT）和需要为它建模的形式逻辑。 比较您的文本的 DRT 会做得更好，并且也适用于有争议的文本。

对于 DRT，您可能希望从以下内容开始： https://plato.stanford.edu/entries/discourse-representation-theory/#DRSLanSynSemAcc 。 它非常复杂，您的应用程序也是如此。 另一种方法是使用依赖解析器从标记方案中提取最重要的命题，然后检查这些关系与一些论文答案相比有多少以及有多相似。 为此，您可以使用关系（动词）和 arguments 及其各自角色（“主题”和“对象”）的向量或嵌入的相似性度量。 我认为在您使用完整的 DRT 之前尝试一下是值得的，因为要根据您的域定制它需要做大量的工作。

计算两对 X 和 y 之间的相似性的最佳做法是什么

[英]What is the best practice to calculate the similarity between two couples of X And y

如何计算文本文件的相似度？

[英]How to calculate the similarity measure of text document?

在python中获得准确的文本相似度以比较单个单词或二元组的最佳方法是什么？

[英]What is the best way to get accurate text similarity in python for comparing single words or bigrams?

词/句相似度。最好的方法是什么？

[英]Word/Sentence similarity. What is the best approach?

在标题下查找文本的最佳方法是什么

[英]What is the best method to find the text under a heading

使用 CountVectorizer、TFIDFVectorizer 计算列表之间的文本相似度

[英]Calculate text similarity between lists using CountVectorizer, TFIDFVectorizer

Pyspark：针对向量列计算余弦相似度的最快方法是什么

[英]Pyspark: What is the Fastest way to Calculate Cosine Similarity against a Column of Vectors

计算二进制向量数据帧的相似度矩阵的最佳方法是什么？

[英]What is the best way to compute a similarity matrix for a dataframe of binary vectors?

在Python中实现按元素的余弦相似度的最佳方法是什么？

[英]What is the best way to implement an element-wise cosine similarity in Python?

单词间相似的最佳WordNet功能是什么？

[英]What's best WordNet function for similarity between words?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 计算两对 X 和 y 之间的相似性的最佳做法是什么如何计算文本文件的相似度？在python中获得准确的文本相似度以比较单个单词或二元组的最佳方法是什么？词/句相似度。最好的方法是什么？在标题下查找文本的最佳方法是什么使用 CountVectorizer、TFIDFVectorizer 计算列表之间的文本相似度 Pyspark：针对向量列计算余弦相似度的最快方法是什么计算二进制向量数据帧的相似度矩阵的最佳方法是什么？在Python中实现按元素的余弦相似度的最佳方法是什么？单词间相似的最佳WordNet功能是什么？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM