繁体   English   中英

如何在 Python 中使用 NLP 标准化相似词?

[英]How to standardize similar words using NLP in Python?

我在excel的列(名称)中有大量文本数据。 其中有一些类似的词,我正在尝试在新列中替换标准化名称中的词。 我附上了一个示例图片。 我已经用其他一些 NLP 尝试过这个,但我被卡住了。 有没有办法通过训练 spacy NLP 模型或其他 NLP 方法来做到这一点? 任何意见,将不胜感激。 例子

这是您要完成的一项非常耗时的任务。 因为您有大量的文本数据,并且必须成对比较单词才能找到相似的单词! 您可以使用spaCycossine_similarity或更多库。

此外,准确性是一个问题。 看一看:

import spacy
nlp = spacy.load('en_core_web_sm')

测试H2O

print(nlp("H2O").similarity(nlp("water")))
>> 0.2828
print(nlp("college").similarity(nlp("school")))
>> 0.8553

这完全取决于您设置的阈值,但请注意,它无法产生与您在问题中发布的结果相同的结果。 选择最佳阈值。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM