生成的PDF中的HTML內容存在問題

Question

我從HTML生成PDF，但是與其將其解釋為普通文本，不如將我的PDF頁面填充為html標簽，例如<p> ， <li>等。

Answer 1

您需要刪除所有標簽並取消轉義特殊字符。

PHP示例：

$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);

VB.NET示例：

Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)

Java示例：

text = html.replaceAll("<[^>]*>", "");

對於html實體解碼，您將在這里找到一個很好的答案： Java：如何在Java中取消對HTML字符實體的轉義？ 。 否則，如果您都知道它們，就可以替換它們（   ， " ，...）。