繁体   English   中英

计算具有相同词根的单词

[英]Count words with the same root

假设我有一个 WorkBank 数据库,其中包含特定语言的单词。 例如,俄语。 由于数量和格(主格、宾格等),俄语单词有不同的结尾

所以,学生可能是:

студент студента

诸如此类...

还有其他语言,例如英语,其中一个动词可以根据其时态(说话、说话、口语等)具有不同的 forms。 此外,其他语言,如意大利语和法语,其中的单词可能会与另一种语言连接:

hôtel = 酒店 l'hôtel = 酒店

anatra = 鸭 l'anatra = 鸭

我想将所有单词存储在 WorkBank 中,但是,我想将它们链接到它们的父单词并区分唯一单词和派生单词,因此 студент 的所有 forms 和“说话”的所有 forms 都只算一个。

我知道这是一个非常广泛的主题,我并不是在寻求解决方案。 如果有人能指出正确的方向或我可以阅读的任何文档来开始实施,我将不胜感激。

你需要做一些步骤:

  1. 为每个单词找到一个引理(要做到这一点,您可以查看nltk库文档,它包含示例)。
  2. 将这些词条翻译成一种语言(例如英语),然后按此翻译对单词进行分组。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM