刪除列表/元組包含nan的最快方法

Question

我有兩個形狀為3000的列表，說：

a = list(range(3000))
b = list(range(3000))

某些元素是不同種類的NAN，某些元素是字符串，其中大多數是整數和浮點數，例如：

a[0] = np.nan
b[1] = 'hello'
a[2] = 2.0
b[3] = float('nan')

然后我需要將它們壓縮在一起並刪除包含nan的元組，然后執行以下操作：

merge = zip(a, b)
c = [x for x in merge if not any(isinstance(i, float) and np.isnan(i) for i in x)]

但是性能不是很好，因為我需要做很多檢查，所以花費了很多時間。

當我運行1000次時，大約需要2.2秒。

然后我嘗試這樣做：

c = [x for x in merge if all(i == i for i in x)]

當我運行1000次時，大約需要1.1秒。

我想知道是否有任何更快的方法來刪除包含NaN的元組？ 請注意，元組中存在多種NaN。

Answer 1

您可以將nan放入集合中，並檢查與元組的交集。 您可以使用列表itertools.filterfalse或itertools.filterfalse ：

In [17]: a = range(3000)

In [18]: merge = list(zip(a, a))

In [19]: %timeit [x for x in merge if not nans.intersection(x)]
1000 loops, best of 3: 566 us per loop

In [20]: %timeit [x for x in merge if all(i == i for i in x)]
1000 loops, best of 3: 1.13 ms per loop

In [21]: %timeit list(filterfalse(nans.intersection, merge))
1000 loops, best of 3: 402 us per loop

使用filterfalse的最后一種方法大約快3倍。

刪除列表/元組包含nan的最快方法

問題描述

1 個解決方案

解決方案1
2 已采納 2017-03-27 05:41:13

刪除列表/元組包含nan的最快方法

問題描述

1 個解決方案

解決方案1 2 已采納 2017-03-27 05:41:13

解決方案1
2 已采納 2017-03-27 05:41:13