簡體   English   中英

Pandas:從2D numpy數組創建一個數據幀,保留它們的順序

[英]Pandas: create a dataframe from 2D numpy arrays preserving their sequential order

假設你有3個numpy數組: latlonval

import numpy as np

lat=np.array([[10, 20, 30],
              [20, 11, 33],
              [21, 20, 10]])

lon=np.array([[100, 102, 103],
              [105, 101, 102],
              [100, 102, 103]])

val=np.array([[17, 2, 11],
              [86, 84, 1],
              [9, 5, 10]])

並且說你要創建一個pandas數據df.columns = ['lat', 'lon', 'val'] ,其中df.columns = ['lat', 'lon', 'val'] ,但由於lat每個值都與longval數量相關聯,所以你希望它們出現在同一行。

此外,您希望每列的按行順序跟隨每個數組中的位置,以便獲取以下數據幀:

      lat   lon   val
0     10    100    17
1     20    102    2
2     30    103    11
3     20    105    86
...   ...   ...    ...

所以基本上數據幀中的第一行存儲每個數組的“第一”數量,依此類推。 這該怎么做?

我無法找到這樣做的pythonic方式,所以任何幫助都將非常感激。

我認為最簡單的方法是使用ravel來平化數組:

df = pd.DataFrame({'lat': lat.ravel(), 'long': long.ravel(), 'val': val.ravel()})
print (df)
   lat  long  val
0   10   100   17
1   20   102    2
2   30   103   11
3   20   105   86
4   11   101   84
5   33   102    1
6   21   100    9
7   20   102    5
8   10   103   10

像這樣的東西 -

# Create stacked array
In [100]: arr = np.column_stack((lat.ravel(),long.ravel(),val.ravel()))

# Create dataframe from it and assign column names    
In [101]: pd.DataFrame(arr,columns=('lat','long','val'))
Out[101]: 
   lat  long  val
0   10   100   17
1   20   102    2
2   30   103   11
3   20   105   86
4   11   101   84
5   33   102    1
6   21   100    9
7   20   102    5
8   10   103   10

運行時測試 -

In [103]: lat = np.random.rand(30,30)

In [104]: long = np.random.rand(30,30)

In [105]: val = np.random.rand(30,30)

In [106]: %timeit pd.DataFrame({'lat': lat.ravel(), 'long': long.ravel(), 'val': val.ravel()})
1000 loops, best of 3: 452 µs per loop

In [107]: arr = np.column_stack((lat.ravel(),long.ravel(),val.ravel()))

In [108]: %timeit np.column_stack((lat.ravel(),long.ravel(),val.ravel()))
100000 loops, best of 3: 12.4 µs per loop

In [109]: %timeit pd.DataFrame(arr,columns=('lat','long','val'))
1000 loops, best of 3: 217 µs per loop

不需要先拉扯。 你可以堆疊然后去。

lat, long, val = np.arange(5), np.arange(5), np.arange(5)
arr = np.stack((lat, long, val), axis=1)
cols = ['lat', 'long', 'val']
df = pd.DataFrame(arr, columns=cols)
   lat  long  val
0    0     0    0
1    1     1    1
2    2     2    2
3    3     3    3
4    4     4    4

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM