[英]How do I extract all HTML tags from a webpage into an array?
我需要將網頁中的所有HTML標簽提取到數組中, 而標簽中沒有數據 。 看起來像...
我正在使用PHP
Array
{
html =>
Array
{
head =>
Array
{
title,
meta name='description' content='bla bla'
meta name='keyword' content='bla bla'
....
},
body =>
Array
{
div id='header' =>
Array
{
div class='logo',
div class='nav'
},
div id='content' =>
Array
{
h1,
p class='first-para',
p,
p,
div id='ad'
},
div id='footer' =>
Array
{
ul =>
Array
{
li =>
Array
{
a href='link.htm'
},
li =>
Array
{
a href='link.htm'
},
li =>
Array
{
a href='link.htm'
}
}
}
}
}
}
您需要的是HTML解析器(XML解析器可能不會這樣做,因為HTML通常是無效的)。 也許: http : //simplehtmldom.sourceforge.net/
您還可以使用PHP DOM擴展 。
我認為最簡單的方法是使用XPath。
//*::name()
應該給您所有級別上所有節點的名稱。 我不知道雖然沒有等級會被扁平化。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.