[英]latin bases language segmentation gramatical rules
我正在研究一个功能,即为拉丁语言(当前英语)应用语言分词规则(语法)。
目前我处于打破用户输入句子的阶段。
e.g.:
"I am working in language translation". "I have used Google MT API for this"
在上面的例子中,我将以句号(。)突破句子这是正常情况下我在点上打破句子,但是有很多字符用于打破句子,如(。!?etc)。
我有遵循SRX规则进行细分。
我的问题是: -
1) 有参考吗? 我可以用来解决我的语言细分规则。
2) 或者是否有任何关于语言细分的论坛? ,以便我可以有效地讨论
如果有人知道,请告诉我?
非常感谢。
您可能想看看Reynar和Ratnaparkhi的论文“最大熵方法识别句子边界” (1997)。
抽象
我们提出了一种用于识别原始文本中句子边界的可训练模型。 给定用句子边界注释的语料库,我们的模型学会将每个出现的。,?和/分类为有效或无效的句子边界。 培训程序不需要手工制作的规则,词汇表,词性标签或特定领域的信息。 因此,该模型可以在任何类型的英语上轻松训练,并且可以在任何其他Romanalphabet语言上训练。 性能与类似系统的性能相当或更好,但我们强调新域的再培训的简单性。
他们产生的句子分段器称为MxTerminator ,可在此处获得 。
在语言学期刊上似乎有大量关于此的文献......
这是关于这个问题的一个很好的报告,希望它可以帮助你http://repository.upenn.edu/cgi/viewcontent.cgi?article=1068&context=ircs_reports
尼科
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.