如何从HTML页面提取和删除元素

Question

码：

<html>

<head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <title>
        dasdfasd
    </title>
    <link rel="stylesheet" type="text/css" href="style.css">
</head>

<body id="eheth" class="sdfgdf">
    <div id="wrapper">


        <div class="container">

            <div class="row">
            </div>
        </div>
    </div>
    <div id="mainNav">
        <div class="container">
            <div class="row">
            </div>
        </div>
    </div>
    </div>
    <script type="text/javascript">


    </script>
    <div id="MainContent_0">
        blah blah blah
    </div>
    <div class="video"> </div>
    <div id="MainContent_2">
        blah blah blah 2
    </div>

</body>

</html>

我想删除除<div id=MainContent_0>和<div id=MainContent_2>中的内容以外的所有内容。 实际的页面要比这复杂得多，并且还有许多我想要这样做的页面，但是我听说过simplehtmldom，但我不知道该如何使用它。 我希望它至少是半自动化的。

Answer 1

使用xpath尝试一下：

$ xmllint --html \
  --xpath '//div[@id="MainContent_0" or @id="MainContent_2"]' file 2>/dev/null

输出：

<div id="MainContent_0">
        blah blah blah
    </div><div id="MainContent_2">
        blah blah blah 2
    </div>

如何从HTML页面提取和删除元素

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-03-11 19:35:45

输出：

如何从HTML页面提取和删除元素

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-03-11 19:35:45

输出：

解决方案1
2 已采纳 2018-03-11 19:35:45