PhpSpreadsheet - 多張數據塊

Question

我需要讀取一個包含 10 張紙的 xlsx 文件，每張紙大約有 3K 行。

有沒有辦法循環每張紙並將他的行分塊？

按照我在這一點上的例子：

public function import($file)
{
    $inputFileType = IOFactory::identify($file);
    $reader = IOFactory::createReader($inputFileType);

    //My ChunkReadFilter is exactly the same of the PhpSpreadsheet examples
    $chunkFilter = new ChunkReadFilter();
    $reader->setReadFilter($chunkFilter);

    $chunkSize = 100;

    $spreadsheet = $reader->load($file);

    $loadedSheetNames = $spreadsheet->getSheetNames();

    foreach ($loadedSheetNames as $sheetIndex => $loadedSheetName) {
        $sheet = $spreadsheet->getSheet($sheetIndex);

        //$highestRow = $sheet->getHighestRow(); //Is returning 1 as result
        $highestRow = 3000;

        for ($startRow = 1; $startRow <= $highestRow; $startRow += $chunkSize) {
            /**  Tell the Read Filter which rows we want this iteration  **/
            $chunkFilter->setRows($startRow, $chunkSize);

            $sheetData = $sheet->toArray(null, true, false, true);
            var_dump($sheetData);
        }

    }
}

var_dump($sheetData); 打印所有工作表數據，而不僅僅是塊大小。

那么，我怎樣才能讀取每個工作表數據並對行進行分塊呢？

我正在使用"phpoffice/phpspreadsheet": "^1.4"

Answer 1

我完全錯過了你的目標（問題不是很清楚）。 我完全改變了我的答案。 假設您可以使用以下代碼遍歷多個工作表：

// .... add helper here....
$helper->log('Loading file ' . pathinfo($inputFileName, PATHINFO_BASENAME) . ' using IOFactory with a defined reader type of ' . $inputFileType);
$reader = IOFactory::createReader($inputFileType);

// Define how many rows we want for each "chunk"
$chunkSize = 10;

// Loop to read our worksheet in "chunk size" blocks
for ($startRow = 2; $startRow <= 50 ; $startRow += $chunkSize) {
    // ..... use the helper ...
    $helper->log('Loading WorkSheet using configurable filter for headings row 1 and for rows ' . $startRow . ' to ' . ($startRow + $chunkSize - 1));
    // Create a new Instance of our Read Filter, passing in the limits on which rows we want to read
    $chunkFilter = new ChunkReadFilter($startRow, $chunkSize);
    // Tell the Reader that we want to use the new Read Filter that we've just Instantiated
    $reader->setReadFilter($chunkFilter);
    // Load only the rows that match our filter from $inputFileName to a PhpSpreadsheet Object
    $spreadsheet = $reader->load($inputFileName);

    $sheetCount = $spreadsheet->getSheetCount();

    for ($i = 0; $i < $sheetCount; $i++) {
        $sheet = $spreadsheet->getSheet($i);

        // ...not what you want, but I leave this here
        $higestRow = $sheet->getHighestRow();
        echo "<p> Sheet n. ".$i. "  highest row is:" . ($higestRow) . "</p>";

        $sheetData = $sheet->toArray(null, true, true, true);

        var_dump($sheetData);
    }
}

...為了達到你的目標，我猜你需要調用use PhpOffice\PhpSpreadsheet\Reader\IReadFilter; 並構建您自己的過濾器，以便根據您的需要在 for 循環內設置 highestRow。 這段代碼取自文檔，公共函數setRows()我猜是你需要放置自己的代碼的地方，而不是在for循環中調用過濾器：

namespace Samples\Sample12;

use PhpOffice\PhpSpreadsheet\IOFactory;
use PhpOffice\PhpSpreadsheet\Reader\IReadFilter;

require __DIR__ . '/../Header.php';

$inputFileType = 'Xls';
$inputFileName = __DIR__ . '/sampleData/example2.xls';

/**  Define a Read Filter class implementing IReadFilter  */
class ChunkReadFilter implements IReadFilter
{
    private $startRow = 0;

    private $endRow = 0;

/**
 * Set the list of rows that we want to read.
 *
 * @param mixed $startRow
 * @param mixed $chunkSize
 */
public function setRows($startRow, $chunkSize)
{
    $this->startRow = $startRow;
    $this->endRow = $startRow + $chunkSize;
}

public function readCell($column, $row, $worksheetName = '')
{
    //  Only read the heading row, and the rows that are configured in            $this->_startRow and $this->_endRow
    if (($row == 1) || ($row >= $this->startRow && $row <   $this->endRow)) {
        return true;
    }

    return false;
    }
}

$helper->log('Loading file ' . pathinfo($inputFileName, PATHINFO_BASENAME) . ' using IOFactory with a defined reader type of ' . $inputFileType);
// Create a new Reader of the type defined in $inputFileType
$reader = IOFactory::createReader($inputFileType);

// Define how many rows we want to read for each "chunk"
$chunkSize = 10;
// Create a new Instance of our Read Filter
$chunkFilter = new ChunkReadFilter();

// Tell the Reader that we want to use the Read Filter that we've  Instantiated
$reader->setReadFilter($chunkFilter);

$spreadsheet = $reader->load($inputFileName);

$sheetCount = $spreadsheet->getSheetCount();

for ($i = 0; $i < $sheetCount; $i++) {
    $sheet = $spreadsheet->getSheet($i);
    // ...we get the highest row here, now
    $higestRow = $sheet->getHighestRow();

    for ($startRow = 2; $startRow <= $higestRow; $startRow += $chunkSize) {
        // ..just for check the output
        echo "<p> Sheet n. ".$i. "  highest row is:" . ($higestRow) . "</p>";
        $helper->log('Loading WorkSheet using configurable filter for headings row 1 and for rows ' . $startRow . ' to ' . ($higestRow + $chunkSize - 1));
        // Tell the Read Filter, the limits on which rows we want to read this iteration
        $chunkFilter->setRows($startRow, $chunkSize);
        // Load only the rows that match our filter from $inputFileName to a PhpSpreadsheet Object
        $spreadsheet = $reader->load($inputFileName);

        // Do some processing here

        $sheetData = $spreadsheet->getActiveSheet()->toArray(null, true, true, true);
        var_dump($sheetData);
    }

}

Answer 2

我對此還很陌生，但嘗試了一種對我們有幫助的解決方案：

我們可以像上面評論中提到的那樣通過 excel sheet 讀取 Chunk 中的文件，但是為了節省內存。 我們可以在循環內創建 reader 並在循環結束時釋放它，如下所述：

// Define how many rows we want to read for each "chunk"
$chunkSize = 1000;      

// Loop to read our worksheet in "chunk size" blocks
for ($startRow = 1; $startRow <= $rawRows; $startRow += $chunkSize) {
// Create a new Reader of the type defined in
$reader = IOFactory::createReader($inputFileType);

// Create a new Instance of our Read Filter
$chunkFilter = new Chunk();

// Tell the Reader that we want to use the Read Filter that we've Instantiated
$reader->setReadFilter($chunkFilter);

// Tell the Read Filter, the limits on which rows we want to read this iteration
$chunkFilter->setRows($startRow, $chunkSize);
// Load only the rows that match our filter from $inputFileName to a PhpSpreadsheet Object
$spreadsheet = $reader->load($inputFileName);
.....
// process the file
.....

// then release the memory
$spreadsheet->__destruct();
$spreadsheet = null;
unset($spreadsheet);

$reader->__destruct();
$reader = null;
unset($reader);
}

它有助於大型工作表僅使用一個塊的內存並且永遠不會超過內存限制。

如果這有幫助，請告訴我。

PhpSpreadsheet - 多張數據塊

問題描述

2 個解決方案

解決方案1
1 2018-08-28 14:55:53

解決方案2
1 2019-11-08 11:03:47

PhpSpreadsheet - 多張數據塊

問題描述

2 個解決方案

解決方案1 1 2018-08-28 14:55:53

解決方案2 1 2019-11-08 11:03:47

解決方案1
1 2018-08-28 14:55:53

解決方案2
1 2019-11-08 11:03:47