繁体   English   中英

拉丁语基础语言分割语法规则

[英]latin bases language segmentation gramatical rules

我正在研究一个功能,即为拉丁语言(当前英语)应用语言分词规则(语法)。

目前我处于打破用户输入句子的阶段。

e.g.:

"I am working in language translation". "I have used Google MT API for this"

在上面的例子中,我将以句号(。)突破句子这是正常情况下我在点上打破句子,但是有很多字符用于打破句子,如(。!?etc)。

我有遵循SRX规则进行细分。

我的问题是: -

1) 有参考吗? 我可以用来解决我的语言细分规则。

2) 或者是否有任何关于语言细分的论坛? ,以便我可以有效地讨论

如果有人知道,请告诉我?

非常感谢。

您可能想看看Reynar和Ratnaparkhi的论文“最大熵方法识别句子边界” (1997)。

抽象

我们提出了一种用于识别原始文本中句子边界的可训练模型。 给定用句子边界注释的语料库,我们的模型学会将每个出现的。,?和/分类为有效或无效的句子边界。 培训程序不需要手工制作的规则,词汇表,词性标签或特定领域的信息。 因此,该模型可以在任何类型的英语上轻松训练,并且可以在任何其他Romanalphabet语言上训练。 性能与类似系统的性能相当或更好,但我们强调新域的再培训的简单性。

他们产生的句子分段器称为MxTerminator ,可在此处获得

在语言学期刊上似乎有大量关于此的文献......

这是关于这个问题的一个很好的报告,希望它可以帮助你http://repository.upenn.edu/cgi/viewcontent.cgi?article=1068&context=ircs_reports

尼科

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM