繁体   English   中英

使用准备好的数据进行Sci-kit分类

[英]Using prepared data for Sci-kit classification

我正在尝试使用Sci-kit学习python库来分类一堆网址,以确定是否存在与用户配置文件匹配的特定关键字。 用户具有姓名,电子邮件地址......以及分配给他们的网址。 我创建了一个txt,每个链接上的每个配置文件数据匹配的结果都是这样的格式:

Name  Email  Address
  0     1      0      =>Relavent
  1     1      0      =>Relavent
  0     1      1      =>Relavent
  0     0      0      =>Not Relavent

其中0或1表示在页面上找到属性(每​​行是一个网页)如何将此数据提供给sci-kit以便它可以使用它来运行分类器? 我看到的例子都有来自预定义的sch-kit库的数据,例如数字或虹膜,或者是以我已有的格式生成的。 我只是不知道如何使用我必须提供给库的数据格式

以上是一个玩具示例,我有比3更多的功能

所需的数据是具有形状(n_samples, n_features)numpy数组 (在这种情况下为“矩阵” (n_samples, n_features)

使用numpy.genfromtxtcsv文件读取为正确格式的简单方法。 也参考这个帖子

让csv文件的内容(比如当前工作目录中的file.csv )为:

a,b,c,target
1,1,1,0
1,0,1,0
1,1,0,1
0,0,1,1
0,1,1,0

要加载它我们做

data = np.genfromtxt('file.csv', skip_header=True)

skip_header设置为True ,以防止读取标题列( a,b,c,target行)。 有关更多详细信息,请参阅numpy的文档

加载数据后,需要根据输入数据格式进行一些预处理。 预处理可以是分割输入和目标(分类)或将整个数据集拆分为训练和验证集(用于交叉验证)。

要从输出(目标矢量)中分割输入(特征矩阵),我们这样做

features = data[:, :3]
targets = data[:, 3]   # The last column is identified as the target

对于上面给出的CSV数据,数组将使用如下所示:

features = array([[ 0, 1, 0],
              [ 1, 1, 0],
              [ 0, 1, 1],
              [ 0, 0, 0]])  # shape = ( 4, 3)

targets = array([ 1, 1, 1, 0])  # shape = ( 4, )

现在将这些矩阵传递给估计器对象fit函数。 如果你正在使用流行的svm分类器那么

>>> from sklearn.svm import LinearSVC
>>> linear_svc_model = LinearSVC()
>>> linear_svc_model.fit(X=features, y=targets) 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM