如何解析具有多行的不規則 XML 文件

Question

我有一個名為 file.txt 的 XML 文件，如下所示：

<message><header><msg-date></msg-date><msg-time></msg-time><sys-id></sys-id></header><record><remittance-details></remittance-details><source-sys-id></source-sys-id></message>
<message><header><msg-date></msg-date><msg-time></msg-time><sys-id></sys-id></header><record><remittance-details></remittance-details><source-sys-id></source-sys-id></message>
<message><header><msg-date></msg-date><msg-time></msg-time><sys-id></sys-id></header><record><remittance-details></remittance-details><source-sys-id></source-sys-id></message>
<message><header><msg-date></msg-date><msg-time></msg-time><sys-id></sys-id></header><record><remittance-details></remittance-details><source-sys-id></source-sys-id></message>
<message><header><msg-date></msg-date><msg-time></msg-time><sys-id></sys-id></header><record><remittance-details></remittance-details><source-sys-id></source-sys-id></message>

我需要在將上述文件解析為文件中如下所示的標准格式后對其進行處理：

<message>
  <header>
    <msg-date></msg-date>
    <msg-time></msg-time>
    <sys-id></sys-id>
  </header>
  <record>
    <remittance-details></remittance-details>
  </record>
</message>

更新了 xml 詳細信息以避免混淆。 上面顯示的示例僅用於理解，因為無法在此處分享全部細節（如果缺少任何標簽，請忽略）。

我編寫了以下代碼來解析它：

import xml.etree.ElementTree as ET
import lxml.etree as etree
import os
import sys
File_path = os.path.abspath(__file__)
BASE_DIR = os.path.dirname(File_path)
file = os.path.join(BASE_DIR,'file.txt')
parser = etree.XMLParser(recover=True)
dom = etree.parse(file,parser=parser )
xmlstr = etree.tostring(dom, pretty_print=True)
with open (file, "wb") as f:
    f.write(xmlstr)

但是，它解析文件的第一行而不是解析完整的文件，因此處理失敗。 因此，想了解如何解析文件中完整的 xml 行來處理它。

Answer 1

你有幾個問題：

您的文檔中沒有根。 這可以通過用<root>..</root>包裹 xml 文本來解決
標簽remittance-details未關閉，因此它是無效的 XML。

如何解析具有多行的不規則 XML 文件

問題描述

1 個解決方案

解決方案1
0 2020-11-02 20:10:01

如何解析具有多行的不規則 XML 文件

問題描述

1 個解決方案

解決方案1 0 2020-11-02 20:10:01

解決方案1
0 2020-11-02 20:10:01