[英]How to classify words with similar patterns on one unique word using Python?
[英]How to standardize similar words using NLP in Python?
我在excel的列(名称)中有大量文本数据。 其中有一些类似的词,我正在尝试在新列中替换标准化名称中的词。 我附上了一个示例图片。 我已经用其他一些 NLP 尝试过这个,但我被卡住了。 有没有办法通过训练 spacy NLP 模型或其他 NLP 方法来做到这一点? 任何意见,将不胜感激。 例子
这是您要完成的一项非常耗时的任务。 因为您有大量的文本数据,并且必须成对比较单词才能找到相似的单词! 您可以使用spaCy 、 cossine_similarity或更多库。
此外,准确性是一个问题。 看一看:
import spacy
nlp = spacy.load('en_core_web_sm')
测试水和H2O :
print(nlp("H2O").similarity(nlp("water")))
>> 0.2828
print(nlp("college").similarity(nlp("school")))
>> 0.8553
这完全取决于您设置的阈值,但请注意,它无法产生与您在问题中发布的结果相同的结果。 选择最佳阈值。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.