ValueError：找到样本数量不一致的输入变量：[15996，8]

Question

我已经使用熊猫加载了数据集并打印了前5行

df = pd.read_csv(r'filename')print(df.shape)
print(df.shape)

打印出数据集中的行数和列数

（15997，8）

print(df.head(5))

只是为了显示结果是什么样

然后，如果我拆分数据集

X = df.iloc[1:].values
y = df.iloc[0].values

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.4,random_state=42, stratify=y)

我得到这个错误

ValueError：找到样本数量不一致的输入变量：[15996，8]

我需要X值从数据集中排除第一行，而y值仅包括第一行

Answer 1

对于df.iloc，第一个索引用作键，因此您正在按行拆分。 第二个索引用于列。 尝试这个：-

X = data.iloc[:,1:]
Y = data.iloc[:,0]

Answer 2

尝试。

X = data.iloc[:,1:]
y = data.iloc[:,0]

由于您的数据框具有两个维度，因此您必须在两个维度上进行切片才能创建子帧。

ValueError：找到样本数量不一致的输入变量：[15996，8]

问题描述

2 个解决方案

解决方案1
2 2019-03-20 12:19:04

解决方案2
0 2019-03-20 12:28:15

ValueError：找到样本数量不一致的输入变量：[15996，8]

问题描述

2 个解决方案

解决方案1 2 2019-03-20 12:19:04

解决方案2 0 2019-03-20 12:28:15

解决方案1
2 2019-03-20 12:19:04

解决方案2
0 2019-03-20 12:28:15