CSV列中所有值之间的差异-python

Question

首先，对于python如此糟糕的水平我感到抱歉，所以我有下一个问题：

1）我在此资源上回答了很多问题，但对我没有任何帮助（ np.abs(a.values[:,np.newaxis]-a2.values)和简单的np.diff()以及许多其他方式）

2！）我有csv文件，格式如下：

 A  12 43 51 10 74
 B  14 32 31 27 23
 C  13 62 13 33 82
 D  18 31 73 70 42

我需要在原始数据的所有列之间接收残差，所以

A:12-43 12-51 12-10 12-74... 43-12 43-51 43-10 43-74...
B:12-43 12-51 12-10 12-74... 43-12 43-51 43-10 43-74...

之后，我需要在12-43 12-51 12-10 12-74... 43-12 43-51 43-10 43-74...电源2 12-43 12-51 12-10 12-74... 43-12 43-51 43-10 43-74...

我知道，熊猫可以与桌子搭配使用，但是我该怎么做呢？

而且，如果可以的话，请以什么方式我需要这样做，以减少极端结果的10％？ 非常感谢您的关注和功能帮助。

Answer 1

我建议使用numpy 。 为了计算差异，您可以做

>>> a = numpy.array([[12, 43, 51, 10, 74],
...                  [14, 32, 31, 27, 23],
...                  [13, 62, 13, 33, 82],
...                  [18, 31, 73, 70, 42]])
>>> difference_matrix = numpy.repeat(a, a.shape[-1], axis=-1) - numpy.tile(a, a.shape[-1])
>>> difference_matrix
array([[  0, -31, -39,   2, -62,  31,   0,  -8,  33, -31,  39,   8,   0,
         41, -23,  -2, -33, -41,   0, -64,  62,  31,  23,  64,   0],
       [  0, -18, -17, -13,  -9,  18,   0,   1,   5,   9,  17,  -1,   0,
          4,   8,  13,  -5,  -4,   0,   4,   9,  -9,  -8,  -4,   0],
       [  0, -49,   0, -20, -69,  49,   0,  49,  29, -20,   0, -49,   0,
        -20, -69,  20, -29,  20,   0, -49,  69,  20,  69,  49,   0],
       [  0, -13, -55, -52, -24,  13,   0, -42, -39, -11,  55,  42,   0,
          3,  31,  52,  39,  -3,   0,  28,  24,  11, -31, -28,   0]])

如果要对结果求平方，可以将其简单地应用于矩阵，然后将每个元素平方：

>>> difference_matrix ** 2
array([[   0,  961, 1521,    4, 3844,  961,    0,   64, 1089,  961, 1521,
          64,    0, 1681,  529,    4, 1089, 1681,    0, 4096, 3844,  961,
         529, 4096,    0],
       [   0,  324,  289,  169,   81,  324,    0,    1,   25,   81,  289,
           1,    0,   16,   64,  169,   25,   16,    0,   16,   81,   81,
          64,   16,    0],
       [   0, 2401,    0,  400, 4761, 2401,    0, 2401,  841,  400,    0,
        2401,    0,  400, 4761,  400,  841,  400,    0, 2401, 4761,  400,
        4761, 2401,    0],
       [   0,  169, 3025, 2704,  576,  169,    0, 1764, 1521,  121, 3025,
        1764,    0,    9,  961, 2704, 1521,    9,    0,  784,  576,  121,
         961,  784,    0]])

Answer 2

pandas不容易接受数组作为元素，因此numpy在这里是一个很好的帮助。

首先，按行（ axis=1 ）进行所有axis=1 ：

data="""
A 12 43 51 10 74
B 14 32 31 27 23
C 13 62 13 33 82
D 18 31 73 70 42
""" 
pd.read_table(io.StringIO(data),header=None,index_col=0,sep=' ')

all_differences=np.apply_along_axis(lambda x:np.subtract.outer(x,x).ravel(),axis=1,arr=df)

然后进行分界：

all_differences.sort(axis=1)

并选择合适的值，并丢弃L[i]-L[i]得出的0。

n=df.shape[1]

cutoff =[i for i in range(n*n)  if  n*n*5//100<=i<n*(n-1)//2 or  n*(n+1)//2<=i<n*n*95//100]

res=2.**all_differences[:,cutoff]

CSV列中所有值之间的差异-python

问题描述

2 个解决方案

解决方案1
0 2017-06-28 22:22:17

解决方案2
0 已采纳 2017-06-29 08:15:36

CSV列中所有值之间的差异-python

问题描述

2 个解决方案

解决方案1 0 2017-06-28 22:22:17

解决方案2 0 已采纳 2017-06-29 08:15:36

解决方案1
0 2017-06-28 22:22:17

解决方案2
0 已采纳 2017-06-29 08:15:36