簡體   English   中英

如何從HTML頁面提取和刪除元素

[英]How to extract and remove elements from an html page

碼:

<html>

<head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <title>
        dasdfasd
    </title>
    <link rel="stylesheet" type="text/css" href="style.css">
</head>

<body id="eheth" class="sdfgdf">
    <div id="wrapper">


        <div class="container">

            <div class="row">
            </div>
        </div>
    </div>
    <div id="mainNav">
        <div class="container">
            <div class="row">
            </div>
        </div>
    </div>
    </div>
    <script type="text/javascript">


    </script>
    <div id="MainContent_0">
        blah blah blah
    </div>
    <div class="video"> </div>
    <div id="MainContent_2">
        blah blah blah 2
    </div>

</body>

</html>

我想刪除除<div id=MainContent_0><div id=MainContent_2>中的內容以外的所有內容。 實際的頁面要比這復雜得多,並且還有許多我想要這樣做的頁面,但是我聽說過simplehtmldom,但我不知道該如何使用它。 我希望它至少是半自動化的。

使用嘗試一下:

$ xmllint --html \
  --xpath '//div[@id="MainContent_0" or @id="MainContent_2"]' file 2>/dev/null

輸出:

<div id="MainContent_0">
        blah blah blah
    </div><div id="MainContent_2">
        blah blah blah 2
    </div>

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM