簡體   English   中英

將文件夾拆分為訓練集和測試集

[英]Splitting folders into training and testing set

我有 5 個文件夾用於安然電子郵件數據集。 我想在 python 中將 enron1、enron3、enron5 拆分為訓練集和 enron2、enron4 作為測試集。 我可以加載完整的數據集並拆分。 但不能像前面提到的那樣放。

for i in range(1,6):
    # folder containing the 2 categories of documents in individual folders.
    movie_data = load_files(f"/Users/mehedihasan/Desktop/Study/SEM6/COMP723 Data Mining & Knowledge Engineering/Assignment/email data/enron{i}") 
    X = np.append(X, movie_data.data)
    y = np.append(y, movie_data.target)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

也許使用for i in [1,3,5]:for i in [2, 4]:而不是range(1, 6)

for i in [1,3,5]:
    # ... code ..
    X_train = ...
    y_train = ...

for i in [2, 4]:
    # ... code ..
    X_test = ...
    y_test = ...

順便提一句:

如果您有更多文件夾,則可以使用

  • range(1, n, 2)得到1, 3, 5, 7, 9, ...
  • range(2, n, 2)得到2, 4, 6, 8, 10, ...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM