我正在尝试运行页面中提到的20newsgroups示例。 当我使用这段代码生成输入数据集时

$> $MAHOUT_HOME/bin/mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \\ -p examples/bin/work/20news-bydate/20news-bydate-train \\ -o examples/bin/work/20news-bydate/bayes-train-input \\ -a org.apache.mahout.vectorizer.DefaultAnalyzer \\ -c UTF-8

我所能得到的只是一个警告,指出

在classpath上找不到org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups.props,仅使用命令行参数

是mahout本身的错误吗? 我如何解决它?

===============>>#1 票数:0 已采纳

我能够做到。 实际上已经创建了examples / bin / work / 20news-bydate / bayes-train-input目录,但是即使刷新后,文件浏览器也没有立即显示它。 稍后当我在终端上执行ls时,我能够看到创建的文件夹!

  ask by Greenhorn translate from so

未解决问题?本站智能推荐:

1回复

Mahout中的朴素贝叶斯分类器对网站进行分类的适用性

我目前正在从事一个需要对网站进行数据库分类的项目(例如cnn.com =新闻)。 我们只需要广泛的分类-我们不需要将每个URL单独分类。 我们正在与此类数据库的通常供应商进行交谈,但是我们索回的大多数报价都非常昂贵,而且常常会提出令人讨厌的要求,例如必须使用其SDK来查询数据库。 同时
1回复

Mahout朴素贝叶斯商品分类器

球队, 我正在一个项目中,我需要将项目分类为某些类别。 我只有一个文件作为输入; 其中包含目标变量和空格分隔的特征 。 我的训练数据看起来像 类别名称[Tab] DataString 水暖[制表]管水龙头塑料管PVC管冷水管热水管三通出口向上弯头向上弯头向下闸阀截止阀
1回复

使用Mahout Native Bayes分类器算法需要哪些步骤?

我正在尝试使用Native Bayes Classifier来检测欺诈交易。 我在excel表中有大约5000的样本数据,这是我将用于训练分类器的数据,我有大约1000的测试数据,我将在其上应用测试分类器。 我的问题是,我不知道如何训练分类器。 在将训练数据传递到训练分类器之前,是否需
1回复

(培训+测试)Mahout 0.7的朴素贝叶斯分类器中的数据问题

在Mahout中,我们如何手动为朴素贝叶斯分类器制作训练向量和测试向量,而不是使用"--randomSelectionPct"选项进行拆分。 根据我的理解,我已经手动构建了火车矢量和测试矢量 但是,按此精度,只有1%。 此处数据是90-10手动分割的。 但是当我将完整的数据(tra
1回复

Mahout文件的“分类器”

我有一项任务需要对数百万种产品进行分类。 今天有一位大佬来了,开始读一些书。 至于现在,我对mahout中的分类器术语有些困惑。 我认为使用分类器可以将文档分类为匹配的任何类别。 然后,在阅读几页之后,我感觉更像是在说文档是a or !a而不是检查文档是a or b or c o
1回复

如何在行动中使用Mahout分类器?

我想使用Apache Mahout和朴素的贝叶斯分类器对一堆文档进行分类。 我进行了所有预处理,然后将训练数据集转换为特征向量,然后训练分类器。 现在,我想将一堆新实例(将要分类的实例)传递给我的模型以对其进行分类。 但是,我的印象是必须对要分类的实例和训练数据集一起进行预处理? 如
2回复

简单地改变apache Mahout分类器输入中的csv头产生不同的模型?

我正在尝试通过Mahout分类器示例(donut.csv)。 但我发现只需更改标题行中某些列的名称,并在分类器命令中更改相应的预测变量名称,就会产生不同的模型。 这根本不符合逻辑。 首先,你获得donut.csv (“尾巴”是因为mahout cat产生一些初始信息行)
1回复

使用Mahout进行朴素贝叶斯分类的情感分析

我正在尝试用Mahout训练Naive Bayes分类器。 我不清楚的第一件事是训练数据的外观。 我的数据集包含一个观点,如果它是肯定的或否定的(1表示肯定,-1表示否定。)从我从《行动中的Mahout》一书中有关分类的章节中了解到,我已经像这样设置了训练数据: 我已经使用seq
1回复

Mahout朴素贝叶斯模型无法找到缓存的文件问题

我已经导入: 来自Mahout-Core-0.9-job 但是,当我尝试调用以下方法时: 我收到以下错误: 我到底在哪里错了呢? 有人可以指导我吗?
1回复

如何在Apache Mahout中对数字数据进行分类?

我有一个格式为class, unigram count, bigram count, sentiment的数字数据集class, unigram count, bigram count, sentiment 。 我浏览了一些Apache Mahout文档,而这些文档都是关于文本数据的。 我知