繁体   English   中英

计算文本相似度的最佳方法是什么?

[英]what is the best method to calculate text similarity?

有一些方法可以检索文本之间的相似性,例如 wup_similarity() cosine_similarity() 等。我的目的是制作一个论文答题系统。这意味着我想比较答题纸和评分方案。 到目前为止,我在没有使用任何培训或建模方法的情况下进行了以下操作。

1.预处理两个文档(删除标点符号,进行词形还原等)。

2.next我通过使用word-net syn-sets得到相似的单词并制作了两个大的arrays(标记方案及其同义词和答案表及其同义词) - 可能不是正确的方法。

3.然后我需要比较这两个大的 arrays 并想得到相似度值

您能否通过提供一些建议或答案来帮助我。 我知道 word-net syn-sets 不是最好的,因为它会给出不相关的答案。 例如:动物和车辆将返回 1 作为相似的值。

但是,我需要为此找到解决方案。

几乎每个搜索引擎都使用的标准方法是将 TF-IDF 向量与余弦相似度进行比较。 这可能对您的任务不公平,因为您正在谈论给定评分方案的论文评估。 这还包括检查重要命题的同一性(在动词-论证结构的意义上)和答案的修辞结构。 这一点很重要,因为“哥伦布探索美洲大陆”可能在语义上与“美洲大陆探索哥伦布”相关,但后者显然是无意义的(在大陆为主体的情况下)。 也许看看话语表示理论(DRT)和需要为它建模的形式逻辑。 比较您的文本的 DRT 会做得更好,并且也适用于有争议的文本。

对于 DRT,您可能希望从以下内容开始: https://plato.stanford.edu/entries/discourse-representation-theory/#DRSLanSynSemAcc 它非常复杂,您的应用程序也是如此。 另一种方法是使用依赖解析器从标记方案中提取最重要的命题,然后检查这些关系与一些论文答案相比有多少以及有多相似。 为此,您可以使用关系(动词)和 arguments 及其各自角色(“主题”和“对象”)的向量或嵌入的相似性度量。 我认为在您使用完整的 DRT 之前尝试一下是值得的,因为要根据您的域定制它需要做大量的工作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM