[英]How to extract and remove elements from an html page
碼:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>
dasdfasd
</title>
<link rel="stylesheet" type="text/css" href="style.css">
</head>
<body id="eheth" class="sdfgdf">
<div id="wrapper">
<div class="container">
<div class="row">
</div>
</div>
</div>
<div id="mainNav">
<div class="container">
<div class="row">
</div>
</div>
</div>
</div>
<script type="text/javascript">
</script>
<div id="MainContent_0">
blah blah blah
</div>
<div class="video"> </div>
<div id="MainContent_2">
blah blah blah 2
</div>
</body>
</html>
我想刪除除<div id=MainContent_0>
和<div id=MainContent_2>
中的內容以外的所有內容。 實際的頁面要比這復雜得多,並且還有許多我想要這樣做的頁面,但是我聽說過simplehtmldom,但我不知道該如何使用它。 我希望它至少是半自動化的。
使用xpath嘗試一下:
$ xmllint --html \
--xpath '//div[@id="MainContent_0" or @id="MainContent_2"]' file 2>/dev/null
<div id="MainContent_0">
blah blah blah
</div><div id="MainContent_2">
blah blah blah 2
</div>
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.