將值分配給輸出NetCDF變量是否會導致整個數據集的重寫？

Question

我將在計算循環的每次迭代中將計算結果寫入NetCDF變量，因為在對變量進行一次寫入之前，我無法將所有結果數據保留在內存中。 我的假設是，每次寫入NetCDF變量都只會寫入我正在寫入的數據切片，因此每次寫入都將很快，但是每次寫入似乎都花費了一段時間，而且我擔心整個NetCDF文件都在在每個變量賦值語句中重寫，而不僅僅是被賦值的數據片，這導致了非常不必要的I / O開銷。

結果數據的片段將被寫入輸出NetCDF變量，如下所示：

outputSpi01MonthVariable[totalNumberOfOutputMonths, lat:lat + 1:1, len(lonDimension)] = spiScale01  # a numpy array with compatible shape assigned to the variable at specified indices

是否有更好的方法為輸出NetCDF變量分配值，而不會導致太多的I / O開銷？ 順便說一句，我已經將輸出變量的填充設置為關閉，但這似乎沒有效果。

Answer 1

我使用NetCDF4-Python讀取/寫入NetCDF，不，在您寫入變量或變量塊時不會寫入整個文件。 這是一個完整的示例： http : //nbviewer.ipython.org/5764942

Answer 2

事實證明，寫入輸出變量時，變量的方向有很大的不同。 似乎數據變化最快的維度（在我的情況下，時間在每次寫入變量時都是經緯度固定）應該是正在寫入的數組和變量本身的最內層維度。 就我而言，我將輸出的NetCDF變量的尺寸轉換為（lat，lon，time），並在每次計算迭代時寫入形狀為==（1、1，number_of_timesteps）的數組，現在寫入NetCDF快約二十倍：

Original with variable dimensions: [time, lat, lon]

Total time:              0:22:35.852000
Total fill time:         0:00:00.254000
Total SPI compute time:  0:00:53.865000
Total copy time:         0:00:00.099000
Total NetCDF write time: 0:19:15.749000


New code with variable dimensions: [lat, lon, time]

Total time:              0:03:12.249000
Total fill time:         0:00:00.248000
Total SPI compute time:  0:00:53.843000
Total copy time:         0:00:00.083000
Total NetCDF write time: 0:00:46.250000

將值分配給輸出NetCDF變量是否會導致整個數據集的重寫？

問題描述

2 個解決方案

解決方案1
3 2013-06-12 12:50:41

解決方案2
1 2013-06-12 15:45:53

將值分配給輸出NetCDF變量是否會導致整個數據集的重寫？

問題描述

2 個解決方案

解決方案1 3 2013-06-12 12:50:41

解決方案2 1 2013-06-12 15:45:53

解決方案1
3 2013-06-12 12:50:41

解決方案2
1 2013-06-12 15:45:53