生成的PDF中的HTML内容存在问题

Question

我从HTML生成PDF，但是与其将其解释为普通文本，不如将我的PDF页面填充为html标签，例如<p> ， <li>等。

Answer 1

您需要删除所有标签并取消转义特殊字符。

PHP示例：

$text = preg_replace($html, '<[^>]*>', '');
$text = html_entity_decode($text);

VB.NET示例：

Dim text As String = Regex.Replace(html, "<[^>]*>", "")
text = System.Web.WebUtility.HtmlDecode(text)

Java示例：

text = html.replaceAll("<[^>]*>", "");

对于html实体解码，您将在这里找到一个很好的答案： Java：如何在Java中取消对HTML字符实体的转义？ 。 否则，如果您都知道它们，就可以替换它们（   ， " ，...）。