如何将网页中的所有HTML标签提取到数组中？

Question

我需要将网页中的所有HTML标签提取到数组中， 而标签中没有数据 。 看起来像...

我正在使用PHP

Array 
{
   html =>
             Array 
             {
                 head =>
                          Array
                          {
                              title,
                              meta name='description' content='bla bla'
                              meta name='keyword' content='bla bla'
                              ....
                          },
                 body =>
                          Array
                          {
                              div id='header' =>
                                              Array
                                              {
                                                  div class='logo',
                                                  div class='nav'
                                              },
                              div id='content' =>
                                              Array
                                              {
                                                  h1,
                                                  p class='first-para',
                                                  p,
                                                  p,
                                                  div id='ad'
                                              },
                              div id='footer' =>
                                              Array
                                              {
                                                  ul =>
                                                        Array
                                                        {
                                                            li =>
                                                                  Array
                                                                  {
                                                                     a href='link.htm'
                                                                  },
                                                            li =>
                                                                  Array
                                                                  {
                                                                     a href='link.htm'
                                                                  },
                                                            li =>
                                                                  Array
                                                                  {
                                                                     a href='link.htm'
                                                                  }
                                                        }
                                              }
                          }

             }
}

Answer 1

您需要的是HTML解析器（XML解析器可能不会这样做，因为HTML通常是无效的）。 也许： http ： //simplehtmldom.sourceforge.net/

Answer 2

您还可以使用PHP DOM扩展。

Answer 3

我认为最简单的方法是使用XPath。

//*::name()

应该给您所有级别上所有节点的名称。 我不知道虽然没有等级会被扁平化。

如何将网页中的所有HTML标签提取到数组中？

问题描述

3 个解决方案

解决方案1
2 已采纳 2010-10-06 14:28:02

解决方案2
1 2010-10-06 14:34:40

解决方案3
0 2010-10-06 14:33:44

如何将网页中的所有HTML标签提取到数组中？

问题描述

3 个解决方案

解决方案1 2 已采纳 2010-10-06 14:28:02

解决方案2 1 2010-10-06 14:34:40

解决方案3 0 2010-10-06 14:33:44

解决方案1
2 已采纳 2010-10-06 14:28:02

解决方案2
1 2010-10-06 14:34:40

解决方案3
0 2010-10-06 14:33:44