如何删除或替换两个xml标签之间的特定字符[linux，python，lxml，sed，awk，...]？

Question

我在python中使用LXML库进行XML解析。

在XML文件中，我有一些不良字符导致python中出现以下错误：

lxml.etree.XMLSyntaxError：CharRef

在python中打开并获取XML文件的内容之前，我必须从两个标记中删除不良字符：

1： <essid cloaked="true">....</essid>或<essid cloaked="false">....</essid> 。

2： <client-manuf>....</client-manuf>

XML文件的大小很大。 所以我想用sed或awk或类似工具来做。

    <crypt>0</crypt>
        <total>20    50</total>
        <fragments>0</fragments>
        <retries>0</retries>
    </packets>
    <datasize>0</datasize>
    <wireless-client number="1" type="established" first-time="Thu Feb 15 16:45:43 2018" last-time="Thu Feb 15 16:45:43 2018">
        <client-mac>08:EA:40:D0:55:43</client-mac>
        <client-manuf>SHENZHEN BILIAN ELECTRONIC CO.&#x  ef;&#x  bc;&#x  8c;LTD</client-manuf>
        <essid cloaked="true">&#x   0;&#x   0;&#x   0;&#x   0;&#x   0;</essid>
        <channel>8</channel>
        <maxseenrate>1.000000</maxseenrate>
        <carrier>IEEE 802.11b+</carrier>
        <encoding>CCK</encoding>
        <packets>
            <LLC>0</LLC>
            <data>0</data>
            <crypt>0</crypt>

我想从这些标签中删除坏字符（client-manuf和essid）。

来自： <client-manuf>SHENZHEN BILIAN ELECTRONIC CO.&#x ef;&#x bc;&#x 8c;LTD</client-manuf>

致（或本）： <client-manuf>SHENZHEN BILIAN ELECTRONIC CO. LTD</client-manuf>

致（或本）： <client-manuf>SHENZHEN BILIAN ELECTRONIC CO</client-manuf>

-----------------------------------------------

来自： <essid cloaked="true">&#x 0;&#x 0;&#x 0;&#x 0;&#x 0;</essid>

来自： <essid cloaked="false">&#x 0;&#x WiFi 0;&#x MTN 0;&#x 0;&#x 0;</essid>

To（或this）： <essid cloaked="true"></essid>

To（或this）： <essid cloaked="true">N/A SSID</essid>

To（或this）： <essid cloaked="false">WiFi MTN</essid>

for example, two bad chars:

1: 0;

2: &#x

这是我的解决方案。 但它不能很好地满足我的需求：

sed -e '/<essid cloaked="\\(true\\|false"\\)>*.*<\\/essid>/ s/\\(&#x\\|0;\\)//g' a.txt

Answer 1

使用etree.XMLParser对象的正确方法（ lxml.etree ）：

import re
from lxml import etree

tags_to_fix = ['clientssss-manuf', 'client-manuf', 'essid']
parser = etree.XMLParser(recover=True)   # recovery mode !
tree = etree.parse("input.xml", parser)

for el in tree.xpath('//*[name()="clientssss-manuf" or name()="client-manuf" or name()="essid"]'):
    el.text = re.sub(r'\w{1,2};\s*', '', el.text).strip()

tree.write("output.xml", encoding="utf-8", pretty_print=True)

结果output.xml的关键片段：

...
<packets>
<crypt>0</crypt>
        <total>20    50</total>
        <fragments>0</fragments>
        <retries>0</retries>
    </packets>
    <datasize>0</datasize>
    <wireless-client number="1" type="established" first-time="Thu Feb 15 16:45:43 2018" last-time="Thu Feb 15 16:45:43 2018">
        <client-mac>08:EA:40:D0:55:43</client-mac>
        <clientssss-manuf>SHENZHEN BILIAN ELECTRONIC CO.  LTD</clientssss-manuf>
        <client-manuf>SHENZHEN BILIAN ELECTRONIC CO.  LTD</client-manuf>
        <essid cloaked="true"></essid>
        <channel>8</channel>
        <maxseenrate>1.000000</maxseenrate>
        <carrier>IEEE 802.11b+</carrier>
        <encoding>CCK</encoding>
        <packets>
            <LLC>0</LLC>
            <data>0</data>
            <crypt>0</crypt>
</packets></wireless-client>
...

Answer 2

你的sed命令看起来并不那么糟糕，只留下了很多空白。

由于sed通常是贪婪的，你可以用“*”指定任意数量的空格。

cat bad.xml | sed '/<essid cloaked="\(true\|false"\)>*.*<\/essid>/ s/ *\(&#x\|0;\) *//g'

另一方面，如果有一些有效的文本，您可能不想将它们粘在一起，因此您可以为每个删除的模式添加一个空格：

cat bad.xml | sed '/<essid cloaked="\(true\|false"\)>*.*<\/essid>/ s/ *\(&#x\|0;\) */ /g'

最后，您可以将多个空格压缩为一个：

cat bad.xml | sed '/<essid cloaked="\(true\|false"\)>*.*<\/essid>/{s/ *\(&#x\|0;\) */ /g;s/  */ /g}'

注意，构造{foo; bar}将两个命令绑定到一个命令块，仅对之前抓取的模式进行操作。 第二种模式会影响整个文件。

使用另一对蒙版括号和蒙版加：

cat bad.xml | sed '/<essid cloaked="\(true\|false"\)>*.*<\/essid>/{s/\( *\(&#x\|0;\) *\)\+/ missing essid /g;s/  */ /g}'

你可以：用一个东西代替一个模式的重复出现。

      s/\( *\(&#x\|0;\) *\)\+/ missing essid /;
      ^  (   (pattern1)   )+ / replacement   /(g now obsolete
         (pattern .......2)

内部模式是替代＆＃x或0;。 外部图案是内部图案，可选择由空白保护

     "0;"
     "0; "
     " 0; "
     " 0;"
     "    0;  "
     "    &#x"

等等。

你想要内部模式，我们称之为X，重复一次或多次，因此+。 但是没有parens，+只能解决最后一个字符，而不是整个模式。

你必须学习这种正则表达式语言。 找一个教程。 你不能要求在生活中需要的每一种可能的变化。

有了良好的基本理解，它会很快得到回报。 你不需要知道所有的东西，但基本的东西，应该有一个很好的估计，什么是可能的，什么不是。 然后一个回购，搜索的东西，很少使用。 然后你可能只会问困难/复杂的东西。

如何删除或替换两个xml标签之间的特定字符[linux，python，lxml，sed，awk，...]？

问题描述

-----------------------------------------------

2 个解决方案

解决方案1
1 2018-02-16 14:51:52

解决方案2
1 已采纳 2018-02-17 20:59:41

如何删除或替换两个xml标签之间的特定字符[linux，python，lxml，sed，awk，...]？

问题描述

-----------------------------------------------

2 个解决方案

解决方案1 1 2018-02-16 14:51:52

解决方案2 1 已采纳 2018-02-17 20:59:41

解决方案1
1 2018-02-16 14:51:52

解决方案2
1 已采纳 2018-02-17 20:59:41