（PHP5）使用PHP DOM或Regex從HTML中提取標題標記和RSS源地址

Question

我想從給定的URL獲取標題標記和RSS提要地址（如果有的話），但到目前為止我使用的方法根本不起作用。 我已經設法通過使用preg_match和正則表達式來獲取標題標簽，但我似乎無法獲得RSS源地址。

（$ webContent保存網站的HTML）

我已將我的代碼復制到下面以供參考......

`//獲取標題標簽preg_match（'@（。*）@ i'，$ webContent，$ titleTagArray）;

// If the title tag has been found, assign it to a variable
if($titleTagArray && $titleTagArray[3])
 $webTitle = $titleTagArray[3];

// Get the RSS or Atom feed address
preg_match('@<link(.*)rel="alternate"(.*)href="(.*)"(.*)type="application/rss+xml"\s/>@i',$webContent,$feedAddrArray);

// If the feed address has been found, assign it to a variable
if($feedAddrArray && $feedAddrArray[2])
 $webFeedAddr = $feedAddrArray[2];`

我一直在讀這里使用正則表達式不是最好的方法嗎？ 希望有人可以幫我一把:-)

謝謝。

Answer 1

一種方法

$dom = new DOMDocument;            // init new DOMDocument
$dom->loadHTML($html);             // load HTML into it
$xpath = new DOMXPath($dom);       // create a new XPath

$nodes = $xpath->query('//title'); // Find all title elements in document
foreach($nodes as $node) {         // Iterate over found elements
    echo $node->nodeValue;         // output title text
}

要使用“application / rss + xml”類型獲取所有鏈接標記的href屬性，您將使用此XPath：

$xpath->query('//link[@type="application/rss+xml"]/@href');

Answer 2

RegExp遠離最佳解決方案;）使用提要閱讀器，例如zend框架的Zend_Feed類。

（PHP5）使用PHP DOM或Regex從HTML中提取標題標記和RSS源地址

問題描述

2 個解決方案

解決方案1
5 2010-06-16 15:17:32

解決方案2
0 2010-06-16 14:48:35

（PHP5）使用PHP DOM或Regex從HTML中提取標題標記和RSS源地址

問題描述

2 個解決方案

解決方案1 5 2010-06-16 15:17:32

解決方案2 0 2010-06-16 14:48:35

解決方案1
5 2010-06-16 15:17:32

解決方案2
0 2010-06-16 14:48:35