[英]Parsing HTML with formatted text
我正在使用DOMDocument解析HTML網頁。
這是我的代碼:
$doc = new DOMDocument();
$doc->strictErrorChecking = false;
$input = file_get_contents($url); //Url passato come parametro
$doc->loadHTML( $input );
$xpath = new DOMXpath($doc);
$article = $xpath->query('//div[@class="entry-container fix"]');
在$ article中我將所有文本都放在“入口容器修復”Div中。
但是網頁中的這個文本有一個格式化的文本。 簡單說明:
<div>
<p> Text <strong> Strong text </strong> </p>
</div>
使用我的代碼,我丟失了所有大膽的意大利字符,所有段落都是ecc ...有一種方法可以獲得所有格式化的文本嗎?
為什么不使用saveHTML函數來提取HTML(這里是鏈接: http ://php.net/manual/fr/domdocument.savehtml.php)。 它看起來像這樣:
$sFormated = $doc->saveHTML($article->item(0));
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.