从csv文件生成随机样本，同时跳过具有特定值的行

Question

我正在尝试从包含数万行的 .csv 文件生成 5000 行的随机子样本。 df 包含两列：“JPG”和“NAME”。

我使用以下代码生成了一个随机子样本：

import pandas as pd

file = pd.read_csv(r'C:\filepath\data.csv', usecols = [7, 8])

sample = file.sample(n=5000)
print(sample)

但是，现在我希望做同样的事情，但包括一个 for 循环，它可以在跳过“NAME”列中带有字符串“t3”的任何行的同时执行此操作。

这是我所在的位置，但正在努力使其发挥作用：

import pandas as pd

file = pd.read_csv(r'C:\filepath\data.csv', usecols = [7, 8])

sample = file.sample(n=5000)
for num in sample:
    if sample.loc[sample['NAME'] == 't3']:
        continue
print(sample)

对此的任何帮助将不胜感激。

谢谢，R

Answer 1

为什么不事先用NAME t3 过滤掉所有行？ 喜欢：

import pandas as pd

file = pd.read_csv(r'C:\filepath\data.csv', usecols = [7, 8])
file_without_t3 = file[file['NAME'] != 't3']

sample = file_without_t3.sample(n=5000)
print(sample)

从csv文件生成随机样本，同时跳过具有特定值的行

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-11-11 12:51:51

从csv文件生成随机样本，同时跳过具有特定值的行

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-11-11 12:51:51

解决方案1
1 已采纳 2020-11-11 12:51:51