繁体   English   中英

在fortran中写入大型数组文件的最佳方法是什么? 文字与其他

[英]Best way to write a large array to file in fortran? Text vs Other

我想知道将大型fortran数组(5000 x 5000实数单精度数字)写入文件的最佳方法。 我试图保存数值计算的结果供以后使用,因此不需要重复。 从计算5000 x 5000 x 4bytes每个数字是100 Mb,是否可以以100Mb的形式保存? 有没有办法将fortran数组保存为二进制文件并将其读回以供以后使用?

我注意到将数字保存到文本文件会产生比保存的数据类型大得多的文件。 这是因为数字被保存为字符吗?

我熟悉写入文件的唯一方法是

open (unit=41, file='outfile.txt')

do  i=1,len
    do j=1,len

        write(41,*) Array(i,j)
    end do
end do

虽然我认为有更好的方法可以做到这一点。 如果有人能指出我的一些资源或例子来批准我有效地(在内存方面)编写和阅读更大文件的能力,这将是很好的。 谢谢!

以二进制形式写入数据文件,除非您实际上要读取输出 - 并且您不会读取250万个元素的数组。

使用二进制文件的原因是三重的,重要性降低了:

  • 准确性
  • 性能
  • 数据大小

准确性问题可能是最明显的。 当您将(二进制)浮点数转换为十进制数字的字符串表示时,您不可避免地会在某个时刻截断。 如果你确定当你将文本值读回浮点值时,你肯定会获得相同的值,那就没关系了。 但这实际上是一个微妙的问题,需要仔细选择您的格式。 使用默认格式,各种编译器以不同的质量执行此任务。 这篇博文是从游戏程序员的角度编写的,可以很好地解决这些问题。

让我们考虑一个小程序,对于各种格式,将单精度实数写入字符串,然后再次读回来,跟踪它遇到的最大错误。 我们将以机器epsilon为单位从0到1。 代码如下:

program testaccuracy

    character(len=128) :: teststring
    integer, parameter :: nformats=4
    character(len=20), parameter :: formats(nformats) =   &
        [ '( E11.4)', '( E13.6)', '( E15.8)', '(E17.10)' ]
    real, dimension(nformats) :: errors

    real :: output, back
    real, parameter :: delta=epsilon(output)
    integer :: i

    errors = 0
    output = 0
    do while (output < 1)
        do i=1,nformats
            write(teststring,FMT=formats(i)) output
            read(teststring,*) back
            if (abs(back-output) > errors(i)) errors(i) = abs(back-output)
        enddo
        output = output + delta
    end do

    print *, 'Maximum errors: '
    print *, formats
    print *, errors

    print *, 'Trying with default format: '

    errors = 0
    output = 0
    do while (output < 1)
        write(teststring,*) output
        read(teststring,*) back
        if (abs(back-output) > errors(1)) errors(1) = abs(back-output)
        output = output + delta
    end do

    print *, 'Error = ', errors(1)

end program testaccuracy

当我们运行它时,我们得到:

$ ./accuracy 
 Maximum errors: 
 ( E11.4)            ( E13.6)            ( E15.8)            (E17.10)            
  5.00082970E-05  5.06639481E-07  7.45058060E-09   0.0000000    
 Trying with default format: 
 Error =   7.45058060E-09

请注意,即使使用小数点后8位数的格式 - 我们可能认为这将是充足的,因为单精度实数仅精确到6-7位小数 - 我们不会得到精确的副本,大约1e -8。 而这个编译器的默认格式,并没有给我们准确的往返浮点值; 引入了一些错误! 如果你是一个视频游戏程序员,那么这种准确度可能就足够了。 但是,如果你正在对湍流流体进行时间相关的模拟,那么这可能绝对不行,特别是如果对引入误差的位置存在偏差,或者错误发生在应该是一个守恒量的情况下。

请注意,如果您尝试运行此代码,您会注意到完成需要很长时间。 这可能是因为,令人惊讶的是,性能是浮点数文本输出的另一个真正问题。 考虑以下简单程序,它只是将5000×5000实数组的示例写成文本和未格式化的二进制文件:

program testarray
    implicit none
    integer, parameter :: asize=5000
    real, dimension(asize,asize) :: array

    integer :: i, j
    integer :: time, u

    forall (i=1:asize, j=1:asize) array(i,j)=i*asize+j

    call tick(time)
    open(newunit=u,file='test.txt')
    do i=1,asize
        write(u,*) (array(i,j), j=1,asize)
    enddo
    close(u)
    print *, 'ASCII: time = ', tock(time)

    call tick(time)
    open(newunit=u,file='test.dat',form='unformatted')
    write(u) array
    close(u)
    print *, 'Binary: time = ', tock(time)


contains
    subroutine tick(t)
        integer, intent(OUT) :: t
        call system_clock(t)
    end subroutine tick

    ! returns time in seconds from now to time described by t 
    real function tock(t)
        integer, intent(in) :: t
        integer :: now, clock_rate
        call system_clock(now,clock_rate)
        tock = real(now - t)/real(clock_rate)
    end function tock

end program testarray

以下是用于写入磁盘或ramdisk的时序输出:

Disk:
 ASCII: time =    41.193001    
 Binary: time =   0.11700000    
Ramdisk
 ASCII: time =    40.789001    
 Binary: time =   5.70000000E-02

请注意,写入磁盘时,二进制输出的速度是ASCII的352倍 ,而ramdisk的速度接近700倍。 这有两个原因 - 一个是你可以一次写出所有数据,而不是必须循环; 另一个是生成浮点数的字符串十进制表示是一个令人惊讶的微妙操作,需要对每个值进行大量计算。

最后是数据大小; 上面示例中的文本文件(在我的系统上)出现到二进制文件大小的4倍左右。

现在,二进制输出存在实际问题。 特别是,原始Fortran(或者,就此而言,C)二进制输出非常脆弱。 如果您更改平台,或者您的数据大小发生变化,您的输出可能不再有任何好处。 将新变量添加到输出将破坏文件格式,除非您始终在文件末尾添加新数据,并且您无法提前知道从协作者(可能是谁)获得的二进制blob中的变量你,三个月前)。 通过使用像NetCDF这样的库来避免二进制输出的大多数缺点, NetCDF编写的自描述二进制文件比原始二进制文件更具“未来证明”。 更好的是,因为它是一个标准,许多工具读取NetCDF文件。

互联网上有许多NetCDF教程; 我们在这里 使用NetCDF的简单示例给出了与原始二进制文件类似的时间:

$ ./array 
 ASCII: time =    40.676998    
 Binary: time =   4.30000015E-02
 NetCDF: time =   0.16000000  

但是给你一个很好的自描述文件:

$ ncdump -h test.nc
netcdf test {
dimensions:
    X = 5000 ;
    Y = 5000 ;
variables:
    float Array(Y, X) ;
        Array:units = "ergs" ;
}

和文件大小大致相同的原始二进制文件:

$ du -sh test.*
96M test.dat
96M test.nc
382M    test.txt

代码如下:

program testarray
    implicit none
    integer, parameter :: asize=5000
    real, dimension(asize,asize) :: array

    integer :: i, j
    integer :: time, u

    forall (i=1:asize, j=1:asize) array(i,j)=i*asize+j

    call tick(time)
    open(newunit=u,file='test.txt')
    do i=1,asize
        write(u,*) (array(i,j), j=1,asize)
    enddo
    close(u)
    print *, 'ASCII: time = ', tock(time)

    call tick(time)
    open(newunit=u,file='test.dat',form='unformatted')
    write(u) array
    close(u)
    print *, 'Binary: time = ', tock(time)

    call tick(time)
    call writenetcdffile(array)
    print *, 'NetCDF: time = ', tock(time)


contains
    subroutine tick(t)
        integer, intent(OUT) :: t
        call system_clock(t)
    end subroutine tick

    ! returns time in seconds from now to time described by t 
    real function tock(t)
        integer, intent(in) :: t
        integer :: now, clock_rate
        call system_clock(now,clock_rate)
        tock = real(now - t)/real(clock_rate)
    end function tock

    subroutine writenetcdffile(array)
        use netcdf
        implicit none
        real, intent(IN), dimension(:,:) :: array

        integer :: file_id, xdim_id, ydim_id
        integer :: array_id
        integer, dimension(2) :: arrdims
        character(len=*), parameter :: arrunit = 'ergs'

        integer :: i, j
        integer :: ierr

        i = size(array,1)
        j = size(array,2)

        ! create the file
        ierr = nf90_create(path='test.nc', cmode=NF90_CLOBBER, ncid=file_id)

        ! define the dimensions
        ierr = nf90_def_dim(file_id, 'X', i, xdim_id)
        ierr = nf90_def_dim(file_id, 'Y', j, ydim_id)

        ! now that the dimensions are defined, we can define variables on them,...
        arrdims = (/ xdim_id, ydim_id /)
        ierr = nf90_def_var(file_id, 'Array',  NF90_REAL, arrdims, array_id)

        ! ...and assign units to them as an attribute 
        ierr = nf90_put_att(file_id, array_id, "units", arrunit)

        ! done defining
        ierr = nf90_enddef(file_id)

        ! Write out the values
        ierr = nf90_put_var(file_id, array_id, array)

        ! close; done
        ierr = nf90_close(file_id)
    return
    end subroutine writenetcdffile
end program testarray

打开文件以进行“未格式化”的读写,并在不提供格式的情况下读取和写入数据,如下面的程序所示。

program xunformatted
integer, parameter :: n = 5000, inu = 20, outu = 21
real               :: x(n,n)
integer            :: i
character (len=*), parameter :: out_file = "temp_num"
call random_seed()
call random_number(x)
open (unit=outu,form="unformatted",file=out_file,action="write")
do i=1,n
   write (outu) x(i,:) ! write one row at a time
end do
print*,"sum(x) =",sum(x)
close (outu)
open (unit=inu,form="unformatted",file=out_file,action="read")
x = 0.0
do i=1,n
   read (inu) x(i,:)   ! read one row at a time
end do
print*,"sum(x) =",sum(x)
end program xunformatted

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM