有效地删除 Pandas Dataframe 中的行，您需要首先标记列的文本以传递条件语句

Question

我有一个大约 2 GB 的 csv 文件，我将它存储在名为 data 的 Pandas Dataframe 中。 行的删除取决于保存在名为 doc_info 的列中的文本。 更具体地说，我想删除 doc_info 列中的文本少于 20 个单词的行。

我使用的代码如下：

for index, row in data.iterrows():
   tokenized_doc_info = row.doc_info.split()
   if len(tokenized_doc_info) < 20:
      data.drop(index, inplace=True)

但是，即使经过 7 个小时，上面的代码也无法完成，因此我中断了它。 您能否为我提供更好的解决方案或解释为什么这段代码这么慢？

谢谢

Answer 1

让我们试试

out = data[data.doc_info.str.split().str.len() < 20]

或者

out = data[data.doc_info.str.count(' ') < 20+1]

Answer 2

您几乎从不想在 pandas DataFrame 上使用迭代，因为它们具有 C 优化的对应物。 改用内置函数：

data[data.str.doc_info.split() < 20]

这将检索 doc_info 少于 20 个单词（由空格分隔定义）的记录的子数据帧。 这将大大加快。

有效地删除 Pandas Dataframe 中的行，您需要首先标记列的文本以传递条件语句

问题描述

2 个解决方案

解决方案1
1 2022-01-11 00:54:02

解决方案2
0 2022-01-11 00:47:42

有效地删除 Pandas Dataframe 中的行，您需要首先标记列的文本以传递条件语句

问题描述

2 个解决方案

解决方案1 1 2022-01-11 00:54:02

解决方案2 0 2022-01-11 00:47:42

解决方案1
1 2022-01-11 00:54:02

解决方案2
0 2022-01-11 00:47:42