繁体 English 中英

使用我自己的语料库在Python NLTK中进行类别分类

[英]Using my own corpus for category classification in Python NLTK

原文 2012-01-11 11:13:23 4 1 python/ nlp/ machine-learning/ nltk/ corpus

我是NTLK / Python的初学者，并且使用CategorizedPlaintextCorpusReader设法加载了自己的语料库，但是我如何实际训练和使用数据进行文本分类呢？

>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt')
>>> len(reader.categories())
234

1 个解决方案

假设您想要一个带有单词功能的朴素贝叶斯分类器：

from nltk import FreqDist
from nltk.classify.naivebayes import NaiveBayesClassifier

def make_training_data(rdr):
    for c in rdr.categories():
        for f in rdr.fileids(c):
            yield FreqDist(rdr.words(fileids=[f])), c

clf = NaiveBayesClassifier.train(list(make_training_data(reader)))

产生的clf的classify方法可用于任何FreqDist单词。

（但请注意：从cap_pattern ，看来您的语料库中有每个文件的样本和一个类别。请检查这是否真的是您想要的。）

使用NLTK / Python中的电影评论语料库进行分类

[英]Classification using movie review corpus in NLTK/Python

使用我自己的标记语料库进行NLTK POS标记？

[英]NLTK POS tagging using my own tagged corpus?

使用NLTK电影评论语料库的分类

[英]Classification using NLTK corpus of movie reviews

如何使用我自己的标记文件。 txt作为NLTK中的语料库？（python 2.7）

[英]How to use my own tagged file. txt as corpus in NLTK ? (python 2.7)

如何在NLTK Python中为语料库创建子类别

[英]How to create a sub-category for a corpus in NLTK Python

使用WordNet和NLTK替换语料库中的同义词-python

[英]Replacing synonyms in a corpus using WordNet and NLTK - python

使用python在NLTK中进行NaiveBayes分类

[英]NaiveBayes Classification in NLTK using python

使用NLTK从分类语料库中获取给定句子的类别

[英]Get the category of a given sentence from a categorized corpus using NLTK

在NLTK中创建自己的语料库的优势

[英]Advantages of creating own corpus in NLTK

Python NLTK莎士比亚语料库

[英]Python NLTK Shakespeare corpus

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用NLTK / Python中的电影评论语料库进行分类使用我自己的标记语料库进行NLTK POS标记？使用NLTK电影评论语料库的分类如何使用我自己的标记文件。 txt作为NLTK中的语料库？（python 2.7）如何在NLTK Python中为语料库创建子类别使用WordNet和NLTK替换语料库中的同义词-python 使用python在NLTK中进行NaiveBayes分类使用NLTK从分类语料库中获取给定句子的类别在NLTK中创建自己的语料库的优势 Python NLTK莎士比亚语料库

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM