简体   繁体   English

apache mahout西班牙语文本

[英]apache mahout for text in spanish

Does anyone know if Apache Mahout works well with text in spanish? 有谁知道Apache Mahout是否可以很好地处理西班牙语文本? I need to do some clustering over newspaper articles in spanish and there are not a lot of tools for doing it. 我需要对西班牙语的报纸文章进行一些分类,并且没有很多工具可以做到这一点。 I think Mahout is a cool framework to do this, but is it good working on spanish text? 我认为Mahout是执行此操作的一个不错的框架,但是处理西班牙语文本是否很好?

Why not? 为什么不? You can use seq2sparse command of bin/mahout script and specify corresponding Lucene analyzer ( org.apache.lucene.analysis.es.SpanishAnalyzer ) using the -a option. 您可以使用bin/mahout脚本的seq2sparse命令,并使用-a选项指定相应的Lucene分析器( org.apache.lucene.analysis.es.SpanishAnalyzer )。 See chapter 8 (pages 199-200...) of Mahout in Action book. 请参阅《行动》中Mahout的第8章(第199-200页...)。

Besides this, you can also write your own analyzer, using existing ones. 除此之外,您还可以使用现有的分析器编写自己的分析器。 The book contains many examples, and you can find source code in repository . 本书包含许多示例,您可以在repository中找到源代码。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM