pandas只替换部分列

Question

这是我的意见：

import pandas as pd
import numpy as np

list1 = [10,79,6,38,4,557,12,220,46,22,45,22]
list2 = [4,3,23,6,234,47,312,2,426,42,435,23]

df = pd.DataFrame({'A' : list1, 'B' : list2}, columns = ['A', 'B'])
df['C'] = np.where (df['A'] > df['B'].shift(-2), 1, np.nan)
print (df)

产生这个输出：

      A    B    C
0    10    4  NaN
1    79    3  1.0
2     6   23  NaN
3    38    6  NaN
4     4  234  NaN
5   557   47  1.0
6    12  312  NaN
7   220    2  1.0
8    46  426  NaN
9    22   42  NaN
10   45  435  NaN
11   22   23  NaN

我需要做的是将列'C'连续更改为三个1的一组，不重叠。 所需的输出是：

      A    B    C
0    10    4  NaN
1    79    3  1.0
2     6   23  1.0
3    38    6  1.0
4     4  234  NaN
5   557   47  1.0
6    12  312  1.0
7   220    2  1.0
8    46  426  NaN
9    22   42  NaN
10   45  435  NaN
11   22   23  NaN

因此，第2,3和6行从NaN变为1.0。 第7行已经有1.0，它被忽略了。 第8行和第9行需要保持NaN，因为第7行是前一组的最后一个条目。

我不知道是否有更好的方法来构建将在创建时执行此操作的列'C'。

我已经尝试了几个版本的fillna和ffill，它们都没有为我工作。

它看起来很复杂，但我试图用这一行隔离每个1.0的行id：

print (df.loc[df['C'] == 1])

哪个正确输出：

     A   B    C
1   79   3  1.0
5  557  47  1.0
7  220   2  1.0

即使我知道这些信息，我也不知道如何从那里开始。

大卫，非常感谢你的帮助

Answer 1

编辑：

更快的版本（感谢b2002）：

ii = df[pd.notnull(df.C)].index
dd = np.diff(ii)
jj = [ii[i] for i in range(1,len(ii)) if dd[i-1] > 2]
jj = [ii[0]] + jj

for ci in jj:
    df.C.values[ci:ci+3] = 1.0

首先通过查看C列中非空的点之间的差异（默认情况下包括第一个索引）来获取所有起始点的索引，即所有1.0点和后面有两个NaN的点，然后迭代在这些索引上使用loc来更改C列的切片：

ii = df[pd.notnull(df.C)].index
dd = np.diff(ii)
jj = [ii[i] for i in range(1,len(ii)) if dd[i-1] > 2]
jj = [ii[0]] + jj

for ci in jj:
    df.loc[ci:ci+2,'C'] = 1.0

结果：

      A    B    C
0    10    4  NaN
1    79    3  1.0
2     6   23  1.0
3    38    6  1.0
4     4  234  NaN
5   557   47  1.0
6    12  312  1.0
7   220    2  1.0
8    46  426  NaN
9    22   42  NaN
10   45  435  NaN
11   22   23  NaN

Answer 2

list1 = [10,79,6,38,4,557,12,220,46,22,45,22]
list2 = [4,3,23,6,234,47,312,2,426,42,435,23]

df = pd.DataFrame({'A' : list1, 'B' : list2}, columns = ['A', 'B'])
df['C'] = np.where (df['A'] > df['B'].shift(-2), 1, np.nan)

      A    B    C
0    10    4  NaN
1    79    3  1.0
2     6   23  NaN
3    38    6  NaN
4     4  234  NaN
5   557   47  1.0
6    12  312  NaN
7   220    2  1.0
8    46  426  NaN
9    22   42  NaN
10   45  435  NaN
11   22   23  NaN

从序列中创建一个数组：

a = np.array(df.C)

此函数将测试数组的片段以匹配模式，并将替换与另一个模式匹配的片段。 以前匹配的段将不会考虑用于将来的匹配（填充数大于1）。

def fill_segments(a, test_patterns, fill_patterns):
    # replace nans with zeros so fast numpy array_equal will work
    nan_idx = np.where(np.isnan(a))[0]
    np.put(a, nan_idx, 0.)
    col_index = list(np.arange(a.size))
    # loop forward through sequence comparing segment patterns
    for j in np.arange(len(test_patterns)):
        this_pattern = test_patterns[j]
        snip = len(this_pattern)
        rng = col_index[:-snip + 1]
        for i in rng:
            seg = a[col_index[i: i + snip]]
            if np.array_equal(seg, this_pattern):
                # when a match is found, replace values in array segment
                # with fill pattern
                pattern_indexes = col_index[i: i + snip]
                np.put(a, pattern_indexes, fill_patterns[j])
    # convert all fillers to ones
    np.put(a, np.where(a > 1.)[0], 1.)
    # convert zeros back to nans
    np.put(a, np.where(a == 0.)[0], np.nan)

    return a

要替换的模式：

p1 = [1., 1., 1.]
p2 = [1., 0., 1.]
p3 = [1., 1., 0.]
p4 = [1., 0., 0.]

和相应的填充模式：

f1 = [5., 5., 5.]
f2 = [4., 4., 4.]
f3 = [3., 3., 3.]
f4 = [2., 2., 2.]

make test_patterns和fill_patterns输入

patterns = [p1, p2, p3, p4]
fills = [f1, f2, f3, f4]

运行功能：

a = fill_segments(a, patterns, fills)

将C分配给C列

df.C = a

DF：

      A    B    C
0    10    4  NaN
1    79    3  1.0
2     6   23  1.0
3    38    6  1.0
4     4  234  NaN
5   557   47  1.0
6    12  312  1.0
7   220    2  1.0
8    46  426  NaN
9    22   42  NaN
10   45  435  NaN
11   22   23  NaN

可能需要调整/添加模式和填充，具体取决于最初填充输入列的方式和特定的结果序列规则。

pandas只替换部分列

问题描述

2 个解决方案

解决方案1
4 已采纳 2017-02-22 07:28:54

解决方案2
1 2017-02-22 06:24:04

pandas只替换部分列

问题描述

2 个解决方案

解决方案1 4 已采纳 2017-02-22 07:28:54

解决方案2 1 2017-02-22 06:24:04

解决方案1
4 已采纳 2017-02-22 07:28:54

解决方案2
1 2017-02-22 06:24:04