如何從 .csv 文件中拆分數據集以進行訓練和測試？

Question

我正在使用 Python，我需要將我的 .csv 導入數據分成兩部分，一個訓練集和一個測試集，EG 70% 訓練和 30% 測試。

我不斷收到各種錯誤，例如'list' object is not callable等。

有沒有簡單的方法可以做到這一點？

謝謝

編輯：

代碼是基本的，我只是想拆分數據集。

from csv import reader
with open('C:/Dataset.csv', 'r') as f:
    data = list(reader(f)) #Imports the CSV
    data[0:1] ( data )

TypeError: 'list' object is not callable

Answer 1

您可以使用pandas ：

import pandas as pd
import numpy as np

df = pd.read_csv('C:/Dataset.csv')
df['split'] = np.random.randn(df.shape[0], 1)

msk = np.random.rand(len(df)) <= 0.7

train = df[msk]
test = df[~msk]

Answer 2

更好的做法，也許更隨機的是使用df.sample ：

from numpy.random import RandomState
import pandas as pd

df = pd.read_csv('C:/Dataset.csv')
rng = RandomState()

train = df.sample(frac=0.7, random_state=rng)
test = df.loc[~df.index.isin(train.index)]

Answer 3

您應該使用 pandas 模塊中的read_csv ()函數。 它將您的所有數據直接讀取到數據幀中，您可以進一步使用該數據幀將數據分解為訓練和測試。 同樣，您可以使用 scikit-learn 模塊中的train_test_split()函數。

如何從 .csv 文件中拆分數據集以進行訓練和測試？

問題描述

3 個解決方案

解決方案1
26 已采納 2017-04-29 15:48:35

解決方案2
6 2017-08-10 19:15:18

解決方案3
4 2017-04-29 15:43:23

如何從 .csv 文件中拆分數據集以進行訓練和測試？

問題描述

3 個解決方案

解決方案1 26 已采納 2017-04-29 15:48:35

解決方案2 6 2017-08-10 19:15:18

解決方案3 4 2017-04-29 15:43:23

解決方案1
26 已采納 2017-04-29 15:48:35

解決方案2
6 2017-08-10 19:15:18

解決方案3
4 2017-04-29 15:43:23