繁体   English   中英

为什么 xarray 在加载时将随机数引入 NetCDF4 文件中的变量?

[英]Why is xarray introducing random numbers to a variable inside a NetCDF4 file when loading?

问题:

我创建了一个 NetCDF4 文件,当使用 xarray 打开该文件时,会将高值引入感兴趣的变量,并且 kernel 不断崩溃。 加载到 MATLAB 时我没有看到高值,这表明它可能是 NetCDF4 文件和 xarray 之间的不兼容问题?

这就是我所做的:

我首先创建一个包含我感兴趣的变量的 NetCDF4 文件:

from netCDF4 import Dataset
import numpy as np
import xarray as xr
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# Create data
data_2_save = np.squeeze(np.float32(np.zeros([6,29947])))
data_2_save[0,1000:27300] = np.nan; 
data_2_save[1,1010:27310] = np.nan; 
data_2_save[2,1050:27350] = np.nan; 
data_2_save[3,1000:27300] = np.nan; 
data_2_save[4,900:27300] = np.nan; 
data_2_save[5,100:27300] = np.nan; 
# time range
t = np.float32(range(-2921,27026,1))
# for other dimension
d = np.arange(1,7)
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# create NetCDF4 file
filename = 'test.nc'
dataset = Dataset(filename, 'w',  format='NETCDF4_CLASSIC') 
fillvalue = 999999
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# define dimensions
TIME_DIM = dataset.createDimension('TIME', None)
D_DIM = dataset.createDimension('D', np.size(d))
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# create variables
TIME = dataset.createVariable('TIME', np.float32, ('TIME',)) 
D = dataset.createVariable('D', np.int32, ('D',))
VAR = dataset.createVariable('VARIABLE', np.float32, ('TIME','D'), 
                              fill_value=fillvalue)
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# VAR
VAR.long_name = 'name'
VAR.valid_max = np.float32(np.nanmax(data_2_save))
VAR.valid_min = np.float32(np.nanmin(data_2_save))
VAR.coordinates = 'TIME D'
VAR.comment = ('A comment goes here')
# Time
time_unit_out= "days since 1950-01-01 00:00:00 UTC"
TIME.units = time_unit_out
TIME.long_name = 'analysis time'
TIME.standard_name = 'time'
TIME.valid_max = np.nanmax(t)
TIME.valid_min = np.nanmin(t)
TIME.axis = 'T'
TIME.calendar = 'gregorian'
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# D
D.standard_name = 'D'
D.valid_max = np.int32(np.round(np.nanmax(d)))
D.valid_min = np.int32(np.round(np.nanmin(d)))
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# Save data into NetCDF
TIME[:] = t
D[:] = np.ndarray.tolist(d)
VAR[:] =np.transpose(data_2_save)
dataset.close()# and the file is written

然后我稍后加载文件和 plot 如下:

import xarray as xr
data = xr.open_dataset('test.nc')
data.VARIABLE[:,1].plot()

然后要么 kernel 崩溃,要么产生 plot。 每次都会产生不同的 plot,随机数与我期望的(0.,nan)一起绘制。 这些随机数可以是 = ~20000,> e+38,有时 = 0。这些随机数往往位于变量数组的末尾,应该是 NaN。 有时没有引入随机数。

我尝试了以下方法:

  • '康达更新--全部'
  • 在 NetCDF4 文件中创建变量时尝试使用“np.int32”、“np.float64”、“float”
  • 创建 NetCDF4 文件时将格式从“NETCDF-CLASSIC”更改为“NETCDF4”

版本

  • Python 3.9
  • xarray 0.20.1
  • matplotlib 3.5.1
  • netcdf4 1.5.7
  • numpy 1.21.5

由于使用 pip 和 conda 安装软件包时出现问题,我最近重新安装了 Anaconda 和软件包。

我已经尝试使用 Spyder 和 Jupyter Notebook 进行此操作,并且在同时使用两者时会发生这种情况。

我决定使用 xarray 而不是 netCDF4 package 来制作 NetCDF 文件。 问题不再发生。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM