讀取XML文件（文件大小> 500 MB）

Question

我正在嘗試解析大型XML文件（大小約為600MB）並使用

這需要更長的時間，最后整個過程被中止。 該過程以異常結束。

消息： “線程被中止”

方法：

private string ReadXml(XmlTextReader reader, string fileName)
{
    string finalXML = "";
    string s1 = "";
    try
    {
        while (reader.Read())
        {
            switch (reader.NodeType)
            {
                case XmlNodeType.Element: // The node is an element.
                    s1 += "<" + reader.Name + ">";
                    break;
                case XmlNodeType.Text: //Display the text in each element.
                    s1 += reader.Value;
                    break;
                case XmlNodeType.EndElement: //Display the end of the element.
                    s1 += "</" + reader.Name + ">";
                    break;
            }
            finalXML = s1;
        }
    }
    catch (Exception ex)
    {
       Logger.Logger.LogMessage(ex, "File Processing error: " + fileName);
    }
    reader.Close();
    reader.Dispose();

    return finalXML;
}

然后閱讀和脫鹽：

string finalXML = string.Empty;
XmlTextReader reader = new XmlTextReader(unzipfile);
finalXML = await ReadXml(reader, fileName);

var xmlremovenamespae = Helper.RemoveAllNamespaces(finalXML);
XmlParseObjectNew.BizData myxml = new XmlParseObjectNew.BizData();

using (StringReader sr = new StringReader(xmlremovenamespae))
 {
       XmlSerializer serializer = new XmlSerializer(typeof(XmlParseObjectNew.BizData));
       myxml = (XmlParseObjectNew.BizData)serializer.Deserialize(sr);
 }

有沒有更好的方法來讀取和解析大型xml文件？ 需要一個建議。

Answer 1

正如Jon Skeet和DiskJunky所提到的那樣，問題是您的數據集太大而無法加載到內存中，並且您的代碼沒有針對此問題進行優化。 因此，為什么各種類都會向您拋出“內存不足異常”。

首先，字符串串聯。 由於字符串的工作方式，對多個字符串使用簡單的串聯（a + b）通常是個壞主意。 我建議在網上查找如何有效地處理字符串連接（例如，Jon Skeet的“有效地連接字符串” ）。

但這是對代碼的優化，主要問題是您試圖加載到內存中的XML文件的絕對大小。 為了處理大型數據集，通常最好是“流式處理”數據，處理數據塊而不是整個文件。

由於您沒有顯示XML的示例，因此我自由地制作了一個簡單的示例來說明我的意思。

考慮您具有以下XML：

<root>
   <specialelement>
      <value1>somevalue</value1>
      <value2>somevalue</value2>
   </specialelement>
   <specialelement>
      <value1>someothervalue</value1>
      <value2>someothervalue</value2>
   </specialelement>
   ... 
</root>

這個XML的要解析specialelement為對象，用下面的類定義：

[XmlRoot("specialelement")]
public class ExampleClass
{
    [XmlElement(ElementName = "value1")]
    public string Value1 { get; set; }    
    [XmlElement(ElementName = "value2")]
    public string Value2 { get; set; }
}

我假設我們可以分別處理每個SpecialElement ，並為此定義一個處理程序，如下所示：

public void HandleElement(ExampleClass item)
{
    // Process stuff
}

現在，我們可以使用XmlTextReader分別讀取XML中的每個元素，當我們達到specialelement我們將跟蹤XML元素中包含的數據。 當我們到達specialelement的末尾時，我們將其反序列化為一個對象，並將其發送給我們的處理程序進行處理。 例如：

using (var reader = new XmlTextReader( /* your inputstream */ ))
{
    // Buffer for the element contents
    StringBuilder sb = new StringBuilder(1000);

    // Read till next node
    while (reader.Read())
    {
        switch (reader.NodeType)
        {
            case XmlNodeType.Element: 
                // Clear the stringbuilder when we start with our element 
                if (string.Equals(reader.Name, "specialelement"))
                {
                    sb.Clear();
                }

                // Append current element without namespace
                sb.Append("<").Append(reader.Name).Append(">");
                break;

            case XmlNodeType.Text: //Display the text in each element.
                sb.Append(reader.Value);
                break;

            case XmlNodeType.EndElement: 

                // Append the closure element
                sb.Append("</").Append(reader.Name).Append(">");

                // Check if we have finished reading our element
                if (string.Equals(reader.Name, "specialelement"))
                {
                    // The stringbuilder now contains the entire 'SpecialElement' part
                    using (TextReader textReader = new StringReader(sb.ToString()))
                    {
                        // Deserialize
                        var deserializedElement = (ExampleClass)serializer.Deserialize(textReader);
                        // Send to handler
                        HandleElement(deserializedElement);
                    }
                }

                break;
        }
    }
}

當我們開始處理流中的數據時，我們不必將整個文件加載到內存中。 保持程序的內存使用率較低（防止內存不足異常）。

查看這個小提琴，看看它的實際效果。

請注意，這是一個快速示例，仍然有很多地方可以進一步改進和優化此代碼。

Answer 2

我嘗試這個並且工作正常。

fileName =“您的文件路徑”;

試試這個代碼，它可以在幾秒鍾內解析出大於500MB的XML文件。

using (TextReader textReader = new StreamReader(fileName))
  {
    using (XmlTextReader reader = new XmlTextReader(textReader))
      {                                   
       reader.Namespaces = false;
 XmlSerializer serializer = new XmlSerializer(typeof("YourXmlClassType"));
          parseData = ("YourXmlClassType")serializer.Deserialize(reader);
      }
  }

讀取XML文件（文件大小> 500 MB）

問題描述

2 個解決方案

解決方案1
1 2018-02-28 13:59:27

解決方案2
1 已采納 2018-03-07 10:21:24

讀取XML文件（文件大小&gt; 500 MB）

問題描述

2 個解決方案

解決方案1 1 2018-02-28 13:59:27

解決方案2 1 已采納 2018-03-07 10:21:24

讀取XML文件（文件大小> 500 MB）

解決方案1
1 2018-02-28 13:59:27

解決方案2
1 已采納 2018-03-07 10:21:24