簡體   English   中英

如何將網頁中的所有HTML標簽提取到數組中?

[英]How do I extract all HTML tags from a webpage into an array?

我需要將網頁中的所有HTML標簽提取到數組中, 而標簽中沒有數據 看起來像...

我正在使用PHP

Array 
{
   html =>
             Array 
             {
                 head =>
                          Array
                          {
                              title,
                              meta name='description' content='bla bla'
                              meta name='keyword' content='bla bla'
                              ....
                          },
                 body =>
                          Array
                          {
                              div id='header' =>
                                              Array
                                              {
                                                  div class='logo',
                                                  div class='nav'
                                              },
                              div id='content' =>
                                              Array
                                              {
                                                  h1,
                                                  p class='first-para',
                                                  p,
                                                  p,
                                                  div id='ad'
                                              },
                              div id='footer' =>
                                              Array
                                              {
                                                  ul =>
                                                        Array
                                                        {
                                                            li =>
                                                                  Array
                                                                  {
                                                                     a href='link.htm'
                                                                  },
                                                            li =>
                                                                  Array
                                                                  {
                                                                     a href='link.htm'
                                                                  },
                                                            li =>
                                                                  Array
                                                                  {
                                                                     a href='link.htm'
                                                                  }
                                                        }
                                              }
                          }

             }
}

您需要的是HTML解析器(XML解析器可能不會這樣做,因為HTML通常是無效的)。 也許: http//simplehtmldom.sourceforge.net/

您還可以使用PHP DOM擴展

我認為最簡單的方法是使用XPath。

//*::name()

應該給您所有級別上所有節點的名稱。 我不知道雖然沒有等級會被扁平化。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM