在python中解析不是純xml的文件的最佳方法是什么

Question

我試圖解析不是純xml的python文件，因為它不是純xml，xml解析器無法解析該文件。

請建議我一個解決方案，我不想讀取具有I / O功能的文件。

<groups>
   <url>
      description = helloz
      <whatis>
         <what_is_that>
            active = yes
            <inside_what>
               <default>
                  <0>
                     tagid = 0

                  </0>
               </default>
            </inside_what>
            <second_list>
               <0>
                  name = do
               </0>
            </second_list>
         </what_is_that>

Answer 1

您可以使用BeautifulSoup嘗試類似的操作。 當您創建BeautifulSoup對象時，它將單獨插入缺少的結束標記。 然后，您可以輕松提取所需的任何內容。

from bs4 import BeautifulSoup

with open('file_name', 'r') as f:
    a = f.read()
    soup=BeautifulSoup(a, 'lxml')
    print soup.find('inside_what')

輸出：

<inside_what>
<default>

                     tagid = 0

                  0&gt;
               </default>
</inside_what>

在python中解析不是純xml的文件的最佳方法是什么

問題描述

1 個解決方案

解決方案1
0 2016-12-29 13:37:12

在python中解析不是純xml的文件的最佳方法是什么

問題描述

1 個解決方案

解決方案1 0 2016-12-29 13:37:12

解決方案1
0 2016-12-29 13:37:12