使用格式化文本解析HTML

Question

我正在使用DOMDocument解析HTML網頁。

這是我的代碼：

$doc = new DOMDocument();
$doc->strictErrorChecking = false;
$input = file_get_contents($url); //Url passato come parametro
$doc->loadHTML( $input );
$xpath = new DOMXpath($doc);
$article = $xpath->query('//div[@class="entry-container fix"]');

在$ article中我將所有文本都放在“入口容器修復”Div中。

但是網頁中的這個文本有一個格式化的文本。 簡單說明：

<div> 
   <p> Text <strong> Strong text </strong> </p>
</div>

使用我的代碼，我丟失了所有大膽的意大利字符，所有段落都是ecc ...有一種方法可以獲得所有格式化的文本嗎？

Answer 1

為什么不使用saveHTML函數來提取HTML（這里是鏈接： http ：//php.net/manual/fr/domdocument.savehtml.php）。 它看起來像這樣：

$sFormated = $doc->saveHTML($article->item(0));

使用格式化文本解析HTML

問題描述

1 個解決方案

解決方案1
1 已采納 2016-03-10 17:39:43

使用格式化文本解析HTML

問題描述

1 個解決方案

解決方案1 1 已采納 2016-03-10 17:39:43

解決方案1
1 已采納 2016-03-10 17:39:43