将大数据查询（超过6万行）导出到Excel

Question

我创建了一个报告工具，作为内部Web应用程序的一部分。 该报告将所有结果显示在GridView中，并且我使用JavaScript将GridView的内容逐行读取到Excel对象中。 JavaScript继续在另一个工作表上创建数据透视表。

不幸的是，如果返回几天以上，我没想到GridView的大小会导致浏览器超载问题。 该应用程序每天有数千条记录，比如说每月60k，理想情况下，我希望能够返回长达一年的所有结果。 行数导致浏览器挂起或崩溃。

我们正在SQL Server的Visual Studio 2010上使用ASP.NET 3.5，预期的浏览器是IE8。 该报告由一个gridview组成，该gridview根据用户选择的人群从少数几个存储过程中获取一个数据。 gridview在UpdatePanel中：

<asp:UpdatePanel ID="update_ResultSet" runat="server">
<Triggers>
    <asp:AsyncPostBackTrigger ControlID="btn_Submit" />
</Triggers>
<ContentTemplate>
<asp:Panel ID="pnl_ResultSet" runat="server" Visible="False">
    <div runat="server" id="div_ResultSummary">
        <p>This Summary Section is Automatically Completed from Code-Behind</p>
    </div>
        <asp:GridView ID="gv_Results" runat="server" 
            HeaderStyle-BackColor="LightSkyBlue" 
            AlternatingRowStyle-BackColor="LightCyan"  
            Width="100%">
        </asp:GridView>
    </div>
</asp:Panel>
</ContentTemplate>
</asp:UpdatePanel>

我对团队来说相对较新，因此我遵循他们的典型做法，将存储过程返回到DataTable并将其用作后面代码中的DataSource：

    List<USP_Report_AreaResult> areaResults = new List<USP_Report_AreaResult>();
    areaResults = db.USP_Report_Area(ddl_Line.Text, ddl_Unit.Text, ddl_Status.Text, ddl_Type.Text, ddl_Subject.Text, minDate, maxDate).ToList();
    dtResults = Common.LINQToDataTable(areaResults);

    if (dtResults.Rows.Count > 0)
    {
        PopulateSummary(ref dtResults);
        gv_Results.DataSource = dtResults;
        gv_Results.DataBind();

（我知道您在想什么！但是，是的，自那时以来，我已经学到了更多有关参数化的知识。）

LINQToDataTable函数没有什么特别的，只是将列表转换为数据表。

有几千条记录（最多几天），这可以正常工作。 GridView显示结果，并且有一个供用户单击的按钮，它将启动JScript导出器。 外部JavaScript函数将每一行读入Excel工作表，然后使用该行创建数据透视表。 数据透视表很重要！

function exportToExcel(sMyGridViewName, sTitleOfReport, sHiddenCols) {
//sMyGridViewName = the name of the grid view, supplied as a text
//sTitleOfReport = Will be used as the page header if the spreadsheet is printed
//sHiddenCols = The columns you want hidden when sent to Excel, separated by semicolon (i.e. 1;3;5).
//              Supply an empty string if all columns are visible.

var oMyGridView = document.getElementById(sMyGridViewName);

//If no data is on the GridView, display alert.
if (oMyGridView == null)
    alert('No data for report');
else {
    var oHid = sHiddenCols.split(";");  //Contains an array of columns to hide, based on the sHiddenCols function parameter
    var oExcel = new ActiveXObject("Excel.Application");
    var oBook = oExcel.Workbooks.Add;
    var oSheet = oBook.Worksheets(1);
    var iRow = 0;
    for (var y = 0; y < oMyGridView.rows.length; y++)
    //Export all non-hidden rows of the HTML table to excel.
    {
        if (oMyGridView.rows[y].style.display == '') {
            var iCol = 0;
            for (var x = 0; x < oMyGridView.rows(y).cells.length; x++) {
                var bHid = false;
                for (iHidCol = 0; iHidCol < oHid.length; iHidCol++) {
                    if (oHid[iHidCol].length !=0 && oHid[iHidCol] == x) {
                        bHid = true;
                        break; 
                    } 
                }
                if (!bHid) {
                    oSheet.Cells(iRow + 1, iCol + 1) = oMyGridView.rows(y).cells(x).innerText;
                    iCol++;
                }
            }
            iRow++;
        }
    }

我正在尝试做的事情：创建一个可以处理此数据并将其处理到Excel中的解决方案（可能是客户端）。 有人可能建议使用HtmlTextWriter ，但是afaik不允许自动生成数据透视表并创建令人讨厌的弹出警告。...

我尝试过的

填充JSON对象-我仍然认为这有潜力，但是我还没有找到使它起作用的方法。
使用SQLDataSource-我似乎无法使用它来获取任何数据。
在页面上分页和循环-进度混合。 虽然通常很难看，但我仍然有一个问题，就是要为显示的每个页面查询并返回整个数据集。

更新：我对替代解决方案仍然很开放，但是我一直在追求JSON理论。 我有一个有效的服务器端方法，该方法从DataTable生成JSON对象。 我不知道如何将JSON传递到（外部）exportToExcel JavaScript函数中。

    protected static string ConstructReportJSON(ref DataTable dtResults)
    {
        StringBuilder sb = new StringBuilder();
        sb.Append("var sJSON = [");
        for (int r = 0; r < dtResults.Rows.Count; r++)
        {
            sb.Append("{");
            for (int c = 0; c < dtResults.Columns.Count; c++)
            {
                sb.AppendFormat("\"{0}\":\"{1}\",", dtResults.Columns[c].ColumnName, dtResults.Rows[r][c].ToString());
            }
            sb.Remove(sb.Length - 1, 1); //Truncate the trailing comma
            sb.Append("},");
        }
        sb.Remove(sb.Length - 1, 1);
        sb.Append("];");
        return sb.ToString();
    }

任何人都可以显示一个如何将此JSON对象带入外部JS函数的示例吗？ 或任何其他导出到Excel的解决方案。

Answer 1

编写CSV文件既简单又有效。 但是， 如果您需要Excel，它也可以以相当有效的方式完成，通过使用Microsoft Open XML SDK的open XML Writer可以处理60,000多行。

如果尚未安装Microsoft Open SDK，请安装它（Google“下载microsoft open xml sdk”）
创建一个控制台应用
添加对DocumentFormat.OpenXml的引用
添加对WindowsBase的引用
尝试运行一些如下所示的测试代码（将需要一些使用）

只需在以下网址查看Vincent Tan的解决方案即可： http://polymathprogrammer.com/2012/08/06/how-to-properly-use-openxmlwriter-to-write-large-excel-files/ （下面，我稍微整理了一下他的示例以帮助新用户。）

在我自己的使用中，我发现常规数据非常简单，但是我确实必须从真实数据中去除“ \\ 0”字符。

using DocumentFormat.OpenXml;
using DocumentFormat.OpenXml.Packaging;
using DocumentFormat.OpenXml.Spreadsheet;

...

        using (var workbook = SpreadsheetDocument.Create("SomeLargeFile.xlsx", SpreadsheetDocumentType.Workbook))
        {
            List<OpenXmlAttribute> attributeList;
            OpenXmlWriter writer;

            workbook.AddWorkbookPart();
            WorksheetPart workSheetPart = workbook.WorkbookPart.AddNewPart<WorksheetPart>();

            writer = OpenXmlWriter.Create(workSheetPart);
            writer.WriteStartElement(new Worksheet());
            writer.WriteStartElement(new SheetData());

            for (int i = 1; i <= 50000; ++i)
            {
                attributeList = new List<OpenXmlAttribute>();
                // this is the row index
                attributeList.Add(new OpenXmlAttribute("r", null, i.ToString()));

                writer.WriteStartElement(new Row(), attributeList);

                for (int j = 1; j <= 100; ++j)
                {
                    attributeList = new List<OpenXmlAttribute>();
                    // this is the data type ("t"), with CellValues.String ("str")
                    attributeList.Add(new OpenXmlAttribute("t", null, "str"));

                    // it's suggested you also have the cell reference, but
                    // you'll have to calculate the correct cell reference yourself.
                    // Here's an example:
                    //attributeList.Add(new OpenXmlAttribute("r", null, "A1"));

                    writer.WriteStartElement(new Cell(), attributeList);

                    writer.WriteElement(new CellValue(string.Format("R{0}C{1}", i, j)));

                    // this is for Cell
                    writer.WriteEndElement();
                }

                // this is for Row
                writer.WriteEndElement();
            }

            // this is for SheetData
            writer.WriteEndElement();
            // this is for Worksheet
            writer.WriteEndElement();
            writer.Close();

            writer = OpenXmlWriter.Create(workbook.WorkbookPart);
            writer.WriteStartElement(new Workbook());
            writer.WriteStartElement(new Sheets());

            // you can use object initialisers like this only when the properties
            // are actual properties. SDK classes sometimes have property-like properties
            // but are actually classes. For example, the Cell class has the CellValue
            // "property" but is actually a child class internally.
            // If the properties correspond to actual XML attributes, then you're fine.
            writer.WriteElement(new Sheet()
            {
                Name = "Sheet1",
                SheetId = 1,
                Id = workbook.WorkbookPart.GetIdOfPart(workSheetPart)
            });

            writer.WriteEndElement(); // Write end for WorkSheet Element
            writer.WriteEndElement(); // Write end for WorkBook Element
            writer.Close();

            workbook.Close();
        }

如果查看该代码，您会注意到两个主要的内容，首先是工作表，然后是包含工作表的工作簿。 工作簿部分最后是无聊的部分，较早的工作表部分包含所有行和列。

在您自己的修改中，您可以将自己的数据中的实际字符串值写入单元格中。 相反，在上面，我们仅使用行和列编号。

writer.WriteElement(new CellValue("SomeValue"));

值得注意的是，Excel中的行编号从1开始而不是0。从零索引开始的行编号将导致错误消息“ Corrupt file”。

最后，如果您要处理大量数据，则永远不要调用ToList（） 。 使用数据读取器样式的方法来流传输数据 。 例如，您可以拥有一个IQueryable并将其用于。 您永远不需要真正依赖于同时将所有数据都存储在内存中，否则您将遇到内存不足的限制和/或较高的内存利用率。

Answer 2

我会尝试使用displaytag显示结果。 您可以将其设置为每页显示一定数量，这应该可以解决您的超载问题。 然后，您可以设置displaytag以允许Excel导出。

Answer 3

我们通常使用“导出”命令按钮来处理此问题，该按钮已连接至服务器端方法以获取数据集并将其转换为CSV。 然后我们调整响应头，浏览器会将其视为下载。 我知道这是一个服务器端解决方案，但是您可能要考虑一下，因为在实现服务器端记录分页之前，您将继续遇到超时和浏览器问题。

Answer 4

自从我开始解决此问题以来，已经有近半个星期的时间了，我终于设法在一定程度上解决了所有问题。 我将暂时暂不标记答案，以查看是否有人有更有效，更好的“最佳做法”方法。

通过生成JSON字符串，我将JavaScript与GridView分离了。 填充数据时，会在后面的代码中生成JSON：

    protected static string ConstructReportJSON(ref DataTable dtResults)
    {
        StringBuilder sb = new StringBuilder();
        for (int r = 0; r < dtResults.Rows.Count; r++)
        {
            sb.Append("{");
            for (int c = 0; c < dtResults.Columns.Count; c++)
            {
                sb.AppendFormat("\"{0}\":\"{1}\",", dtResults.Columns[c].ColumnName, dtResults.Rows[r][c].ToString());
            }
            sb.Remove(sb.Length - 1, 1); //Truncate the trailing comma
            sb.Append("},");
        }
        sb.Remove(sb.Length - 1, 1);
        return String.Format("[{0}]", sb.ToString());
    }

返回一串数据，例如

[{“ Caller”：“ John Doe”，“ Office”：“ 5555”，“ Type”：“ Incoming”等，

{“呼叫者”：“简・多伊”，“办公室”：“ 7777”，“类型”：“外出”，等等}，{etc}]

我通过使用以下方式将文本分配给UpdatePanel中的Literal来隐藏了此字符串：

    <div id="div_JSON" style="display: none;">
            <asp:Literal id="lit_JSON" runat="server" /> 
    </div>

JavaScript通过读取div的内容来解析输出：

function exportToExcel_Pivot(sMyJSON, sTitleOfReport, sReportPop) {
     //sMyJSON = the name, supplied as a text, of the hidden element that houses the JSON array.
     //sTitleOfReport = Will be used as the page header if the spreadsheet is printed.
     //sReportPop = Determines which business logic to create a pivot table for.

var sJSON = document.getElementById(sMyJSON).innerHTML;
var oJSON = eval("(" + sJSON + ")");

 //    DEBUG Example Test Code
 //    for (x = 0; x < oJSON.length; x++) {
 //        for (y in oJSON[x])
 //            alert(oJSON[x][y]); //DEBUG, returns field value
 //            alert(y); //DEBUG, returns column name
 //    }


//If no data is in the JSON object array, display alert.
if (oJSON == null)
    alert('No data for report');
else {
    var oExcel = new ActiveXObject("Excel.Application");
    var oBook = oExcel.Workbooks.Add;
    var oSheet = oBook.Worksheets(1);
    var oSheet2 = oBook.Worksheets(2);
    var iRow = 0;
    var iCol = 0;

        //Take the column names of the JSON object and prepare them in Excel
        for (header in oJSON[0])
        {
            oSheet.Cells(iRow + 1, iCol + 1) = header;
            iCol++;
        }

        iRow++;

        //Export all rows of the JSON object to excel
        for (var r = 0; r < oJSON.length; r++)
        {
            iCol = 0;
            for (c in oJSON[r]) 
                    {
                        oSheet.Cells(iRow + 1, iCol + 1) = oJSON[r][c];
                        iCol++;
                    } //End column loop
            iRow++;
        } //End row

字符串输出和JavaScript“ eval”解析都非常快地工作，但是遍历JSON对象比我想要的慢一点。

我相信这种方法将限于大约10亿个字符的数据-可能更少，具体取决于内存测试的工作方式。 （我计算过，每天可能最多查看100万个字符，所以在报告的一年之内就可以了。）

将大数据查询（超过6万行）导出到Excel

问题描述

4 个解决方案

解决方案1
3 2017-02-17 17:46:36

解决方案2
1 2012-07-06 23:02:44

解决方案3
1 2012-07-07 01:13:08

解决方案4
0 2012-07-10 19:21:58

将大数据查询（超过6万行）导出到Excel

问题描述

4 个解决方案

解决方案1 3 2017-02-17 17:46:36

解决方案2 1 2012-07-06 23:02:44

解决方案3 1 2012-07-07 01:13:08

解决方案4 0 2012-07-10 19:21:58

解决方案1
3 2017-02-17 17:46:36

解决方案2
1 2012-07-06 23:02:44

解决方案3
1 2012-07-07 01:13:08

解决方案4
0 2012-07-10 19:21:58