繁体   English   中英

如何提取葡萄牙语的名词/口头短语?

[英]How do I extract noun/ verbal phrases for portuguese?

我找到了各种工具来提取英语中的口头和名词短语,包括 stackoverflow 中的一些问题。 然而,我发现的技术似乎只适用于英文文本。 我试过 spacy 和 textblob 但他们不会返回任何葡萄牙语文本(在英语中完美运行)。

这是我为葡萄牙语所做的尝试: Spacy 提取特定名词短语doc.noun_chunks 中的块对英语非常有效,但是有人知道葡萄牙语已经存在的技术吗? 我正在寻找我知道的任何地方。

noun_chunks是针对每种语言单独实现的,因为基本名词短语看起来会有所不同: noun_chunks词和形容词出现的顺序是什么,相关的依赖关系和词性标签是什么等等。

一些小细节可能有所不同,但我猜想葡萄牙语名词块与西班牙语名词块非常相似,因此您可以使用西班牙语名词块迭代器作为起点。 西班牙语和葡萄牙语都使用了 Universal Dependencies 中的依赖关系和简单的 POS 标签,所以我希望它很容易适应。

Spacy 没有任何内置的动词短语提取器,但基本思想类似于名词块:根据 POS 标签和依存树定义模式以识别要提取的短语。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM