兩個熊貓數據幀之間的快速Spearman相關

Question

我想將spearman相關性應用於具有相同列數（每對行的相關性）的兩個pandas數據幀。

我的目標是計算每對行（r，s）之間的spearman相關性分布，其中r是第一個數據幀的一行，s是第二個數據幀的一行。

我知道以前已經回答過類似的問題（請參閱參考資料）。 但是，此問題有所不同，因為我想將第一個數據幀的每一行與第二個數據幀的所有行進行比較。 此外，由於我的數據量大，因此這需要大量的計算，並且要花費數小時。 我想對其進行並行化，並可能對其進行重寫以加快速度。

我嘗試使用numba，但是不幸的是它失敗了（與此類似），因為它似乎無法識別scipy spearmanr 。 我的代碼如下：

def corr(a, b):
    dist = []
    for i in range(a.shape[0]):
        for j in range(b.shape[0]):
            dist += [spearmanr(a.iloc[i, :], b.iloc[j, :])[0]]
    return dist

Answer 1

新答案

from numba import njit
import pandas as pd
import numpy as np

@njit
def mean1(a):
  n = len(a)
  b = np.empty(n)
  for i in range(n):
    b[i] = a[i].mean()
  return b

@njit
def std1(a):
  n = len(a)
  b = np.empty(n)
  for i in range(n):
    b[i] = a[i].std()
  return b

@njit
def c(a, b):
    ''' Correlation '''
    n, k = a.shape
    m, k = b.shape

    mu_a = mean1(a)
    mu_b = mean1(b)
    sig_a = std1(a)
    sig_b = std1(b)

    out = np.empty((n, m))

    for i in range(n):
        for j in range(m):
            out[i, j] = (a[i] - mu_a[i]) @ (b[j] - mu_b[j]) / k / sig_a[i] / sig_b[j]

    return out

r = df_test.rank(1).values
df_test.T.corr('spearman') == c(r, r)

老答案

進行Spearman等級相關只是在進行等級之間的相關。

秩

我們可以利用argsort來獲得排名。 盡管argsort的argsort確實獲得了排名，但我們可以通過切片分配將自己限制為一種。

def rank(a):
  i, j = np.meshgrid(*map(np.arange, a.shape), indexing='ij')

  s = a.argsort(1)
  out = np.empty_like(s)
  out[i, s] = j

  return out

示范

np.random.seed([3, 1415])

a = np.random.randn(2, 10)
b = np.random.randn(2, 10)

rank_a = rank(a)
rank_b = rank(b)

c(rank_a, rank_b)

array([[0.32121212, 0.01818182],
       [0.13939394, 0.55151515]])

如果您正在使用DataFrame

da = pd.DataFrame(a)
db = pd.DataFrame(b)

pd.DataFrame(c(rank(da.values), rank(db.values)), da.index, db.index)


          0         1
0  0.321212  0.018182
1  0.139394  0.551515

驗證方式

我們可以使用pandas.DataFrame.corr進行快速驗證

pd.DataFrame(a.T).corr('spearman') == c(rank_a, rank_a)

      0     1
0  True  True
1  True  True

Answer 2

下面是一個rowbased的，未編譯版本scipy.stats.spearmanr即對一個示例性的大型數據集的時間的用途〜5％表示它產生相同的結果：

import numpy as np

import pandas as pd


def spearman_row(x, y):

    x = np.asarray(x)
    y = np.asarray(y)

    rx = rankdata_average(x)
    ry = rankdata_average(y)

    # print(rx)
    # print(ry)

    return compute_corr(rx, ry)

def compute_corr(x, y):

    # Thanks to https://github.com/dengemann

    def ss(a, axis):
        return np.sum(a * a, axis=axis)

    x = np.asarray(x)
    y = np.asarray(y)

    mx = x.mean(axis=-1)
    my = y.mean(axis=-1)

    xm, ym = x - mx[..., None], y - my[..., None]

    r_num = np.add.reduce(xm * ym, axis=-1)
    r_den = np.sqrt(ss(xm, axis=-1) * ss(ym, axis=-1))

    with np.errstate(divide='ignore', invalid="ignore"):

        r = r_num / r_den

    return r


def rankdata_average(data):

    """Row-based rankdata using method=mean"""

    dc = np.asarray(data).copy()
    sorter = np.apply_along_axis(np.argsort, 1, data)

    inv = np.empty(data.shape, np.intp)

    ranks = np.tile(np.arange(data.shape[1]), (len(data), 1))

    np.put_along_axis(inv, sorter, ranks, axis=1)

    dc = np.take_along_axis(dc, sorter, 1)

    res = np.apply_along_axis(lambda r: r[1:] != r[:-1], 1, dc)

    obs = np.column_stack([np.ones(len(res), dtype=bool), res])

    dense = np.take_along_axis(np.apply_along_axis(np.cumsum, 1, obs), inv, 1)

    len_r = obs.shape[1]

    nonzero = np.count_nonzero(obs, axis=1)
    obs = pd.DataFrame(obs)
    nonzero = pd.Series(nonzero)
    dense = pd.DataFrame(dense)

    ranks = []
    for _nonzero, nzdf in obs.groupby(nonzero, sort=False):

        nz = np.apply_along_axis(lambda r: np.nonzero(r)[0], 1, nzdf)

        _count = np.column_stack([nz, np.ones(len(nz)) * len_r])
        _dense = dense.reindex(nzdf.index).values

        _result = 0.5 * (np.take_along_axis(_count, _dense, 1) + np.take_along_axis(_count, _dense - 1, 1) + 1)

        result = pd.DataFrame(_result, index=nzdf.index)
        ranks.append(result)

    final = pd.concat(ranks).sort_index()

    return final


if __name__ == "__main__":

    from scipy.stats import rankdata, spearmanr
    from time import time

    np.random.seed(0)

    size = int(1e5), 5
    d1 = np.random.randint(5, size=size)
    d2 = np.random.randint(5, size=size)

    start = time()
    actual = spearman_row(d1, d2)
    end = time()
    print("actual", actual)
    print("rowbased took", end - start)

    start = time()
    expected = []
    for i in range(len(d1)):
        expected.append(spearmanr(d1[i], d2[i]).correlation)
    end = time()
    print("scipy took", end - start)

    expected = np.array(expected)

    print("largest diff", pd.Series(expected - actual).abs().max())

它打印：

rowbased took 3.6308434009552
scipy took 53.552557945251465
largest diff 2.220446049250313e-16

Answer 3

熊貓在spearman的支持下具有corr功能。 它適用於列，因此我們可以轉置dataFrame。

我們將df1附加到df2並通過迭代每一行來計算相關性

len_df1 = df1.shape[0]
df2_index = df2.index.values.tolist()


df = df2.append(df1).reset_index(drop=True).T
values = {i: [df.iloc[:,df2_index+[i]].corr(method='spearman').values] for i in range(len_df1)}

兩個熊貓數據幀之間的快速Spearman相關

問題描述

3 個解決方案

解決方案1
3 已采納 2018-09-17 17:48:34

新答案

老答案

秩

相關性

示范

驗證方式

解決方案2
1 2019-11-27 14:08:42

解決方案3
0 2018-09-17 16:27:16

兩個熊貓數據幀之間的快速Spearman相關

問題描述

3 個解決方案

解決方案1 3 已采納 2018-09-17 17:48:34

新答案

老答案

秩

相關性

示范

驗證方式

解決方案2 1 2019-11-27 14:08:42

解決方案3 0 2018-09-17 16:27:16

解決方案1
3 已采納 2018-09-17 17:48:34

解決方案2
1 2019-11-27 14:08:42

解決方案3
0 2018-09-17 16:27:16