[英]How Can I Find Out Similar or Estimated Point Names From a list of Addresses By NLP Or Any Better Solution?
我有一个 500K 不同类型地址的列表,并且还有 BD 中特定点名称的列表。 您想根据地址找出这些点名称。 但是有一个问题,地址中的Many Point名称拼写不正确;
喜欢 - 不同地址中的错误拼写点名称:Narayangonj、Norayanganj、Nuraiyagonj 我列表中的正确拼写点名称:Narayanganj
我应该如何编码? - 如果点名称名称的名称的单词紧密或相似,则它将根据地址选择估计或适当的点名称。
我们将任务分为两部分。 首先是选择您要更正的单词。 二是替换这个词。
您可以跳过第一部分并检查每个单词,或使用 NER 模型(已知模型 CoreNLP、Spacy、Stanza)来确定您需要哪个单词。
第二部分的答案可以在这里找到。 如何在 python 的列表中找到最相似的单词
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.