![](/img/trans.png)
[英]Why are NaNs introduced into dimension variable when loading a netcdf file into xarray dataset
[英]Why is xarray introducing random numbers to a variable inside a NetCDF4 file when loading?
问题:
我创建了一个 NetCDF4 文件,当使用 xarray 打开该文件时,会将高值引入感兴趣的变量,并且 kernel 不断崩溃。 加载到 MATLAB 时我没有看到高值,这表明它可能是 NetCDF4 文件和 xarray 之间的不兼容问题?
这就是我所做的:
我首先创建一个包含我感兴趣的变量的 NetCDF4 文件:
from netCDF4 import Dataset
import numpy as np
import xarray as xr
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# Create data
data_2_save = np.squeeze(np.float32(np.zeros([6,29947])))
data_2_save[0,1000:27300] = np.nan;
data_2_save[1,1010:27310] = np.nan;
data_2_save[2,1050:27350] = np.nan;
data_2_save[3,1000:27300] = np.nan;
data_2_save[4,900:27300] = np.nan;
data_2_save[5,100:27300] = np.nan;
# time range
t = np.float32(range(-2921,27026,1))
# for other dimension
d = np.arange(1,7)
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# create NetCDF4 file
filename = 'test.nc'
dataset = Dataset(filename, 'w', format='NETCDF4_CLASSIC')
fillvalue = 999999
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# define dimensions
TIME_DIM = dataset.createDimension('TIME', None)
D_DIM = dataset.createDimension('D', np.size(d))
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# create variables
TIME = dataset.createVariable('TIME', np.float32, ('TIME',))
D = dataset.createVariable('D', np.int32, ('D',))
VAR = dataset.createVariable('VARIABLE', np.float32, ('TIME','D'),
fill_value=fillvalue)
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# VAR
VAR.long_name = 'name'
VAR.valid_max = np.float32(np.nanmax(data_2_save))
VAR.valid_min = np.float32(np.nanmin(data_2_save))
VAR.coordinates = 'TIME D'
VAR.comment = ('A comment goes here')
# Time
time_unit_out= "days since 1950-01-01 00:00:00 UTC"
TIME.units = time_unit_out
TIME.long_name = 'analysis time'
TIME.standard_name = 'time'
TIME.valid_max = np.nanmax(t)
TIME.valid_min = np.nanmin(t)
TIME.axis = 'T'
TIME.calendar = 'gregorian'
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# D
D.standard_name = 'D'
D.valid_max = np.int32(np.round(np.nanmax(d)))
D.valid_min = np.int32(np.round(np.nanmin(d)))
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# Save data into NetCDF
TIME[:] = t
D[:] = np.ndarray.tolist(d)
VAR[:] =np.transpose(data_2_save)
dataset.close()# and the file is written
然后我稍后加载文件和 plot 如下:
import xarray as xr
data = xr.open_dataset('test.nc')
data.VARIABLE[:,1].plot()
然后要么 kernel 崩溃,要么产生 plot。 每次都会产生不同的 plot,随机数与我期望的(0.,nan)一起绘制。 这些随机数可以是 = ~20000,> e+38,有时 = 0。这些随机数往往位于变量数组的末尾,应该是 NaN。 有时没有引入随机数。
我尝试了以下方法:
版本
由于使用 pip 和 conda 安装软件包时出现问题,我最近重新安装了 Anaconda 和软件包。
我已经尝试使用 Spyder 和 Jupyter Notebook 进行此操作,并且在同时使用两者时会发生这种情况。
我决定使用 xarray 而不是 netCDF4 package 来制作 NetCDF 文件。 问题不再发生。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.