如何將 Poisson CDF 寫成 Python 極坐標表達式

Question

我有一個極坐標表達式集合，用於為 ML model 生成特征。我想向這個集合添加一個 poission cdf 特征，同時保持惰性執行（具有速度、緩存等優勢）。 到目前為止，我還沒有找到實現這一目標的簡單方法。

我已經能夠在所需的惰性表達式框架之外獲得我想要的結果：

import polars as pl
from scipy.stats import poisson

df = pl.DataFrame({"count": [9,2,3,4,5], "expected_count": [7.7, 0.2, 0.7, 1.1, 7.5]})
result = poisson.cdf(df["count"].to_numpy(), df["expected_count"].to_numpy())
df = df.with_column(pl.Series(result).alias("poission_cdf"))

但是，實際上我希望它看起來像：

df = pl.DataFrame({"count": [9,2,3,4,5], "expected_count": [7.7, 0.2, 0.7, 1.1, 7.5]})
df = df.select(
    [
        ... # bunch of other expressions here
        poisson_cdf()
    ]
)

其中poisson_cdf是一些極坐標表達式，例如：

def poisson_cdf():
    # this is just for illustration, clearly wont work
    return scipy.stats.poisson.cdf(pl.col("count"), pl.col("expected_count")).alias("poisson_cdf")

我還嘗試使用由"count"和"expected_count"組成的結構，並在應用自定義函數時按照文檔中的建議進行應用。 但是，我的數據集實際上有數百萬行 - 導致荒謬的執行時間。

這里的任何建議或指導將不勝感激。 理想情況下，某處存在這樣的表達式？ 提前致謝！

Answer 1

如果scipy.stats.poisson.cdf實現為適當的numpy 通用 function ，則可以直接在極坐標表達式上使用它，但事實並非如此。 幸運的是，Poisson CDF 幾乎與正則化上不完全伽瑪 function 相同，其中scipy提供可用於極坐標表達式的 gammaincc：

>>> import polars as pl
>>> from scipy.special import gammaincc
>>> df = pl.select(pl.arange(0, 10).alias('k'))
>>> df.with_columns(cdf=gammaincc(pl.col('k') + 1, 4.0))
shape: (10, 2)
┌─────┬──────────┐
│ k   ┆ cdf      │
│ --- ┆ ---      │
│ i64 ┆ f64      │
╞═════╪══════════╡
│ 0   ┆ 0.018316 │
│ 1   ┆ 0.091578 │
│ 2   ┆ 0.238103 │
│ 3   ┆ 0.43347  │
│ ... ┆ ...      │
│ 6   ┆ 0.889326 │
│ 7   ┆ 0.948866 │
│ 8   ┆ 0.978637 │
│ 9   ┆ 0.991868 │
└─────┴──────────┘

結果與 poisson.cdf 返回的結果相同：

>>> _.with_columns(cdf2=pl.lit(poisson.cdf(df['k'], 4)))
shape: (10, 3)
┌─────┬──────────┬──────────┐
│ k   ┆ cdf      ┆ cdf2     │
│ --- ┆ ---      ┆ ---      │
│ i64 ┆ f64      ┆ f64      │
╞═════╪══════════╪══════════╡
│ 0   ┆ 0.018316 ┆ 0.018316 │
│ 1   ┆ 0.091578 ┆ 0.091578 │
│ 2   ┆ 0.238103 ┆ 0.238103 │
│ 3   ┆ 0.43347  ┆ 0.43347  │
│ ... ┆ ...      ┆ ...      │
│ 6   ┆ 0.889326 ┆ 0.889326 │
│ 7   ┆ 0.948866 ┆ 0.948866 │
│ 8   ┆ 0.978637 ┆ 0.978637 │
│ 9   ┆ 0.991868 ┆ 0.991868 │
└─────┴──────────┴──────────┘

Answer 2

聽起來您想使用.map()而不是.apply() - 這將一次傳遞整個列。

df.select([
   pl.all(),
   # ...
   pl.struct(["count", "expected_count"])
     .map(lambda x: 
        poisson.cdf(x.struct.field("count"), x.struct.field("expected_count")))
     .flatten()
     .alias("poisson_cdf")
])

shape: (5, 3)
┌───────┬────────────────┬─────────────┐
│ count | expected_count | poisson_cdf │
│ ---   | ---            | ---         │
│ i64   | f64            | f64         │
╞═══════╪════════════════╪═════════════╡
│ 9     | 7.7            | 0.75308     │
│ 2     | 0.2            | 0.998852    │
│ 3     | 0.7            | 0.994247    │
│ 4     | 1.1            | 0.994565    │
│ 5     | 7.5            | 0.241436    │
└───────┴────────────────┴─────────────┘

Answer 3

你想利用scipy有一組函數numpy ufuncs的事實

通過 NumPy API 仍然有快速柱狀操作。

具體來說，您需要pdtr function。

然后，您想要使用reduce而不是map或apply ，因為它們適用於通用 python 函數並且不會執行得很好。

所以如果我們有...

df = pl.DataFrame({"count": [9,2,3,4,5], "expected_count": [7.7, 0.2, 0.7, 1.1, 7.5]})
result = poisson.cdf(df["count"].to_numpy(), df["expected_count"].to_numpy())
df = df.with_columns(pl.Series(result).alias("poission_cdf"))

然后我們可以添加

df=df.with_columns([
    pl.reduce(f=pdtr, exprs=[pl.col('count'),pl.col('expected_count')]).alias("poicdf")
])
df

shape: (5, 4)
┌───────┬────────────────┬──────────────┬──────────┐
│ count ┆ expected_count ┆ poission_cdf ┆ poicdf   │
│ ---   ┆ ---            ┆ ---          ┆ ---      │
│ i64   ┆ f64            ┆ f64          ┆ f64      │
╞═══════╪════════════════╪══════════════╪══════════╡
│ 9     ┆ 7.7            ┆ 0.75308      ┆ 0.75308  │
│ 2     ┆ 0.2            ┆ 0.998852     ┆ 0.998852 │
│ 3     ┆ 0.7            ┆ 0.994247     ┆ 0.994247 │
│ 4     ┆ 1.1            ┆ 0.994565     ┆ 0.994565 │
│ 5     ┆ 7.5            ┆ 0.241436     ┆ 0.241436 │
└───────┴────────────────┴──────────────┴──────────┘

你可以看到它給出了相同的答案。

如何將 Poisson CDF 寫成 Python 極坐標表達式

問題描述

3 個解決方案

解決方案1
3 2023-02-01 13:59:47

解決方案2
1 已采納 2023-01-31 21:17:58

解決方案3
1 2023-02-02 16:09:49

如何將 Poisson CDF 寫成 Python 極坐標表達式

問題描述

3 個解決方案

解決方案1 3 2023-02-01 13:59:47

解決方案2 1 已采納 2023-01-31 21:17:58

解決方案3 1 2023-02-02 16:09:49

解決方案1
3 2023-02-01 13:59:47

解決方案2
1 已采納 2023-01-31 21:17:58

解決方案3
1 2023-02-02 16:09:49