[英]how to improve the performance of reading bytes line by line from a filestream
我有一個大於 10G 的文件。 為了逐行閱讀這個文件,我寫了這個 function。
static IEnumerable<string> fread(string fname, Encoding enc)
using (var f = File.OpenRead(fname))
using (var reader = new StreamReader(f, enc))
while (!reader.EndOfStream)
yield return reader.ReadLine();
}
這段代碼工作得很好,但它返回一個行字符串,而不是行字節[]。 所以要為每一行返回 byte[],我寫了另一個 function。
static IEnumerable<byte[]> freadbytes(string fname) {
using (var f = File.OpenRead(fname)) {
var bufSz = 1024;
var buf = new byte[bufSz];
var read = 1;
var cr = (byte)13; // \r
var lf = (byte)10; // \n
var data = new List<byte>();
while (read > 0) {
read = f.Read(buf, 0, bufSz);
data.AddRange(read == bufSz ? buf : buf.slc(0, read));
var i = data.IndexOf(lf);
while (i >= 0) {
if (i > 0 && data[i - 1] == cr) yield return data.Take(i - 1).ToArray();
else yield return data.Take(i).ToArray();
data.RemoveRange(0, i + 1);
i = data.IndexOf(lf);
}
}
}
}
第二個function,freadbytes()也可以,但問題是第二個function占用了第一個ZC1C425268E68385D1AB5074C17A94F的10倍以上。 為了讓第二個 function 更快,我該怎么辦?
雖然未經測試,但我相信這會更快:
static IEnumerable<byte[]> fread(string fname, Encoding enc)
{
using (var f = File.OpenRead(fname))
using (var reader = new StreamReader(f, enc))
while (!reader.EndOfStream)
yield return enc.GetBytes(reader.ReadLine());
}
也許這會有所幫助:
static IEnumerable<string> fread(string fname, Encoding enc)
using (var f = File.OpenRead(fname))
using (var reader = new StreamReader(f, enc))
while (!reader.EndOfStream)
yield return enc.GetBytes(reader.ReadLine());
}
更新:最初錯過了enc
參數。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.