[英]apache mahout for text in spanish
有谁知道Apache Mahout是否可以很好地处理西班牙语文本? 我需要对西班牙语的报纸文章进行一些分类,并且没有很多工具可以做到这一点。 我认为Mahout是执行此操作的一个不错的框架,但是处理西班牙语文本是否很好?
为什么不? 您可以使用bin/mahout
脚本的seq2sparse
命令,并使用-a
选项指定相应的Lucene分析器( org.apache.lucene.analysis.es.SpanishAnalyzer
)。 请参阅《行动》中Mahout的第8章(第199-200页...)。
除此之外,您还可以使用现有的分析器编写自己的分析器。 本书包含许多示例,您可以在repository中找到源代码。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.