如何在 Python 中使用 NLP 标准化相似词？

Question

我在excel的列（名称）中有大量文本数据。 其中有一些类似的词，我正在尝试在新列中替换标准化名称中的词。 我附上了一个示例图片。 我已经用其他一些 NLP 尝试过这个，但我被卡住了。 有没有办法通过训练 spacy NLP 模型或其他 NLP 方法来做到这一点？ 任何意见，将不胜感激。 例子

Answer 1

这是您要完成的一项非常耗时的任务。 因为您有大量的文本数据，并且必须成对比较单词才能找到相似的单词！ 您可以使用spaCy 、 cossine_similarity或更多库。

此外，准确性是一个问题。 看一看：

import spacy
nlp = spacy.load('en_core_web_sm')

测试水和H2O ：

print(nlp("H2O").similarity(nlp("water")))
>> 0.2828

print(nlp("college").similarity(nlp("school")))
>> 0.8553

这完全取决于您设置的阈值，但请注意，它无法产生与您在问题中发布的结果相同的结果。 选择最佳阈值。

如何在 Python 中使用 NLP 标准化相似词？

问题描述

1 个解决方案

解决方案1
0 2021-11-06 06:42:39

如何在 Python 中使用 NLP 标准化相似词？

问题描述

1 个解决方案

解决方案1 0 2021-11-06 06:42:39

解决方案1
0 2021-11-06 06:42:39