繁体   English   中英

Sci-Kit学习:调查分类错误的数据

[英]Sci-Kit Learn: Investigating Incorrectly Classified Data

我想使用sci-kit Learn分析已被模型错误分类的数据,以便改善特征生成。 我有一种方法可以做到这一点,但是我既是新手,也是ci-kit学习和熊猫的新手,所以我想知道是否有更有效/直接的方法来完成此任务。 似乎是标准工作流程的一部分,但是在我所做的研究中,我没有发现任何直接解决从模型分类到特征矩阵再到原始数据的反向映射的方法。

这是我正在使用的上下文/工作流程以及我设计的解决方案。 下面是示例代码。

语境。 我的工作流程如下:

  1. 从一堆JSON Blob(原始数据)开始。 这是pandas DataFrame。
  2. 提取用于建模的相关部分,将其称为数据。 这是一个熊猫数据框。
  3. 此外,我们拥有所有数据的真实数据,因此我们将其称为真实或y。
  4. 在sci-kit学习中创建一个特征矩阵,称为X。这是一个大的稀疏矩阵。
  5. 创建一个随机森林对象,称为该森林。
  6. 使用sci-kit learning split_train_test()函数为训练和测试创建特征矩阵的随机子集。
  7. 根据上面的训练数据X_train训练森林,X_train是一个大的稀疏矩阵。
  8. 获取假阳性和假阴性结果的索引。 这些是X_test(稀疏矩阵)的索引。
  9. 从一个错误的肯定索引进入X_test返回原始数据
  10. 如有必要,请从数据转到原始数据。

解。

  • 将索引数组传递到split_test_train()函数,该函数将在索引数组上应用相同的随机化器,并将其作为训练和测试数据的索引返回(idx_test)
  • 收集误报和误报的索引,它们是nd.arrays
  • 使用它们来查找索引数组中的原始位置,例如,对于false_neg数组中的false_example,使用index = idx_test [false_example]
  • 使用该索引查找原始数据,data.iloc [index]是原始数据
  • 然后data.index [index]会将索引值返回到原始数据(如果需要)

这是与使用推文的示例相关联的代码。 同样,这可行,但是是否有更直接/更智能的方法呢?

# take a sample of our original data
data=tweet_df[0:100]['texts']
y=tweet_df[0:100]['truth']

# create the feature vectors
vec=TfidfVectorizer(analyzer="char",ngram_range=(1,2))
X=vec.fit_transform(data) # this is now feature matrix

# split the feature matrix into train/test subsets, keeping the indices back into the original X using the
# array indices
indices = np.arange(X.shape[0])
X_train, X_test, y_train, y_test,idx_train,idx_test=train_test_split(X,y,indices,test_size=0.2,random_state=state)

# fit and test a model
forest=RandomForestClassifier()
forest.fit(X_train,y_train)
predictions=forest.predict(X_test)

# get the indices for false_negatives and false_positives in the test set
false_neg, false_pos=tweet_fns.check_predictions(predictions,y_test)

# map the false negative indices in the test set (which is features) back to it's original data (text)
print "False negatives: \n"
pd.options.display.max_colwidth = 140
for i in false_neg:
    original_index=idx_test[i]
    print data.iloc[original_index]

和checkpredictions函数:

def check_predictions(predictions,truth):
    # take a 1-dim array of predictions from a model, and a 1-dim truth vector and calculate similarity
    # returns the indices of the false negatives and false positives in the predictions. 

    truth=truth.astype(bool)
    predictions=predictions.astype(bool)
    print sum(predictions == truth), 'of ', len(truth), "or ", float(sum(predictions == truth))/float(len(truth))," match"

    # false positives
    print "false positives: ", sum(predictions & ~truth)
    # false negatives
    print "false negatives: ",sum( ~predictions & truth)
    false_neg=np.nonzero(~predictions & truth) # these are tuples of arrays
    false_pos=np.nonzero(predictions & ~truth)
    return false_neg[0], false_pos[0] # we just want the arrays to return

您的工作流程是:

原始数据->功能->拆分->训练->预测->标签上的错误分析

预测与特征矩阵之间存在逐行对应关系,因此,如果您要对特征进行误差分析,应该没有问题。 如果要查看哪些原始数据与错误相关联,则必须对原始数据进行拆分,或者跟踪将哪些数据行映射到哪些测试行(您当前的方法)。

第一个选项如下所示:

在原始数据上安装转换器->拆分原始数据->分别转换训练/测试->训练/测试-> ...

也就是说,它在拆分前使用fit在拆分后进行transform ,从而使原始数据的划分方式与标签相同。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM