如何在 Java 8 中並行讀取文件的所有行

Question

我想盡快將 1 GB 大文件的所有行讀入Stream<String> 。 目前我正在使用Files(path).lines() 。 解析文件后，我正在做一些計算（ map() / filter() ）。

起初我以為這已經是並行完成的，但似乎我錯了：按原樣讀取文件時，在我的雙 CPU 筆記本電腦上大約需要 50 秒。 但是，如果我使用 bash 命令拆分文件然后並行處理它們，則只需要大約 30 秒。

我嘗試了以下組合：

我多次運行這 4 次，結果大致相同（1 或 2 秒）。 [...]只是一個 map 和 filter 鏈，最后有一個toArray(...)來觸發評估。

結論是使用lines().parallel()沒有區別。 由於並行讀取兩個文件需要更短的時間，因此拆分文件可以提高性能。 然而，似乎整個文件都是串行讀取的。

編輯：
我想指出的是，我使用的是 SSD，因此幾乎沒有尋找時間。 該文件共有 1658652（相對較短）行。 在 bash 中拆分文件大約需要 1.5 秒：

   time split -l 829326 file # 829326 = 1658652 / 2
   split -l 829326 file  0,14s user 1,41s system 16% cpu 9,560 total

所以我的問題是，Java 8 JDK 中是否有任何類或函數可以並行讀取所有行而不必先拆分它？ 例如，如果我有兩個 CPU 內核，則第一行閱讀器應從第一行開始，第二行閱讀器應從(totalLines/2)+1 。

Answer 1

您可能會從這篇文章中找到一些幫助。 嘗試並行化文件的實際讀取可能會導致錯誤的樹，因為最大的減速將是您的文件系統（即使在 SSD 上）。

如果您在內存中設置文件通道，您應該能夠從那里以極快的速度並行處理數據，但您可能不需要它，因為您會看到速度大大提高。