使用Scikit学习进行文本分类

Question

我正在使用scikit learning对两个标签进行文本分类。我正在使用load_files方法加载文本文件

categories={'label0','label1'}
text_data = load_files(path,categories=categories)

从以下结构：

train
├── Label0
│   ├── 0001.txt
│   └── 0002.txt
└── Label1
    ├── 0001.txt
    └── 0002.txt

我的问题是，当我尝试查看text_data.data的形状时，它返回：

print (type(text_data.data))
<type 'list'>

print text_data.data.shape
AttributeError: 'list' object has no attribute 'shape'

X = np.array(text_data.data)
print x.shape
(35,)

它返回1D数组..我认为应该是2D numpy数组或字典，其中第一个用于文本，另一个用于类（label0或1）..我错过了什么吗？

Answer 1

问题是调用load_files之后，它还不是一个numpy数组。 这只是文本列表。 您应该使用CountVectorizer或TfidfVectorizer这些文本向量化。

例：

cv = CountVectorizer()
X = cv.fit_transform(text_data.data)
y = text_data.target
print cv.vocabulary_  # Show words in vocabulary with column index

clf = LogisticRegression() # or other classifier
clf.fit(X, y)

使用Scikit学习进行文本分类

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-02-07 01:15:49

使用Scikit学习进行文本分类

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-02-07 01:15:49

解决方案1
1 已采纳 2016-02-07 01:15:49