[英]NLP libraries for simple POS tagging
我是一个正在NLP进行夏季项目的学生。 我是该领域的新手,如果有一个真正明显的解决方案,我深表歉意。 出于对我的熟悉以及项目的计算强度(我的语料库是Wikipedia的明文转储),该项目使用C语言编写。
我正在研究一种用于关系提取的方法,利用一致性原理来尝试学习(在一定误差阈值之内)一组规则,这些规则指示语法对象的哪些簇暗示这些对象之间的连接。
该算法的第一步之一是找到给定单词可以引用的所有可能的语法对象的集合(POS歧义消除由算法在后续步骤中隐式完成)。 我看过几个解析器,但是它们似乎都自己做了消歧步骤,(从我的角度来看)这适得其反。 我正在寻找现成的东西(理想情况下),使我可以通过一种命令来获取此信息。
这样的事情存在吗? 如果不是,是否存在包含此信息的可微机解析的字典?
谢谢您的帮助。
看看CMU狮身人面像。 一个开源的NLP项目。 我认为它是用C ++编写的,但是您可以将其集成或至少获得如何处理问题的想法。
如果感到烦躁,将外部POS标记器作为shell脚本调用或将其包装在http服务中怎么办?
Java和Python具有绝大多数的NLP库,因此可以利用它。 如果您可以在脚本中使用NLTK来标记内容,请从C调用此脚本,这将使其更加容易。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.