从数据帧返回值

Question

我有这样的 python pandas 数据框，有 200k 到 400k 行

Index value
  1     a
  2 
  3     v
  4
  5
  6    6077
  7
  8     h

并且我希望这个数据框值列根据字符串值的数量使用特定值填充所有下面的行（就像在这个表中我们有 1 个字符串值）。 我希望我的数据框是这样的。

Index value
  1     a
  2     a 
  3     v
  4     v
  5     v
  6     v
  7     v
  8     h

Answer 1

如果需要重复长度为1字符串，您可以通过正则表达式[a-zA-Z]{1}使用Series.str.match检查字符串长度是否为1 ，将不匹配的值替换为NaN s by Series.where并最后向前填充ffill缺失值：

df['value'] = df['value'].where(df['value'].str.match('^[a-zA-Z]{1}$', na=False)).ffill()
print (df)
   Index value
0      1     a
1      2     a
2      3     v
3      4     v
4      5     v
5      6     v
6      7     v
7      8     h

另一个想法：

m1 = df['value'].str.len().eq(1)
m2 = df['value'].str.isalpha()
df['value'] = df['value'].where(m1 & m2).ffill()

Answer 2

fillna的forward fill方法正是为此。 这应该适合你：

df.fillna(method='ffill')

Answer 3

尝试这个，

import pandas as pd

df['value'].replace('\d+', pd.np.nan, regex=True).ffill()

0    a
1    a
2    v
3    v
4    v
5    v
6    v
7    h
Name: value, dtype: object

Answer 4

删除所有数字后，请执行以下操作：

df[df['value']==""] = np.NaN
df.fillna(method='ffill')

Answer 5

假设任何不是空字符串或数字的值都应该向前填充，那么正则表达式r'^\\d*$'将匹配空字符串或数字。 这些值可以用np.nan替换，然后可以调用ffill ：

import numpy as np

df['value'].replace(r'^\d*$', np.nan, regex=True, inplace=True)
df['value'].ffill(inplace=True)

从数据帧返回值

问题描述

5 个解决方案

解决方案1
1 已采纳 2020-11-03 11:31:18

解决方案2
0 2020-11-03 11:32:08

解决方案3
0 2020-11-03 11:36:47

解决方案4
0 2020-11-03 12:04:40

解决方案5
0 2020-11-03 12:29:17

从数据帧返回值

问题描述

5 个解决方案

解决方案1 1 已采纳 2020-11-03 11:31:18

解决方案2 0 2020-11-03 11:32:08

解决方案3 0 2020-11-03 11:36:47

解决方案4 0 2020-11-03 12:04:40

解决方案5 0 2020-11-03 12:29:17

解决方案1
1 已采纳 2020-11-03 11:31:18

解决方案2
0 2020-11-03 11:32:08

解决方案3
0 2020-11-03 11:36:47

解决方案4
0 2020-11-03 12:04:40

解决方案5
0 2020-11-03 12:29:17