随机排列大 csv

Question

我想打乱这个数据集以获得一个随机集。 它有 160 万行，但第一行是 0，最后一行是 4，所以我需要随机选择样本以获得多个 class。实际代码仅打印 class 0（意味着只有 1 类）。 我从这个平台上听取了建议，但没有用。

fid = open("sentiment_train.csv", "r")

li = fid.readlines(16000000)


random.shuffle(li)

fid2 = open("shuffled_train.csv", "w")

fid2.writelines(li)

fid2.close()

fid.close()

sentiment_onefourty_train = pd.read_csv('shuffled_train.csv', header= 0, delimiter=",", usecols=[0,5], nrows=100000)

sentiment_onefourty_train.columns=['target', 'text']

print(sentiment_onefourty_train['target'].value_counts())

Answer 1

因为您使用 Pandas 读取数据，您还可以使用pd.sample以不同的方式进行随机化：

df = pd.read_csv('sentiment_train.csv', header= 0, delimiter=",", usecols=[0,5])
df.columns=['target', 'text']
df1 = df.sample(n=100000)

如果失败，最好检查唯一值的数量以及它们出现的频率。 如果前 1,599,999 个是 0 而最后一个只有 4，那么你很可能得不到任何 4。

随机排列大 csv

问题描述

1 个解决方案

解决方案1
0 已采纳 2022-03-03 08:17:29

随机排列大 csv

问题描述

1 个解决方案

解决方案1 0 已采纳 2022-03-03 08:17:29

解决方案1
0 已采纳 2022-03-03 08:17:29