[英]Converting HTML Entities (like &) to Latex
我正在编写一个应用程序,以使用Java和JSOAP从网站上检索某些文章。 该应用程序将文章的某些部分编译成.tex( LaTeX )文档,然后使用PDFLatex将其转换为PDF。
有些页面包含HTML实体,如&或“,这些实体在PDF转换过程中引起错误。如何解决此问题?
有关tex-exchange的问题有一个指向整洁的转换列表的链接。 这些列是(按顺序):
&
和;
\\
以该列表为起点编写一些转换代码应该很容易。
HTML使用标记来构造数据, 标记由一系列字符定义。 这些标签以某些字符开头,并且包含某些字符,如果要使用分隔标签部分的字符之一,则需要使用一个character实体来表示它们。
这意味着&
并不是单个字符的某种怪异编码,实际上是五个字符的组合,这是向HTML渲染器(如Web浏览器)发出的仅显示字符&
信号。
Tex是另一种野兽,它对使用“裸” &
HTML的限制不一样,因此在使用Tex处理此类数据之前,您需要使用常规字符对所有HTML字符实体进行字符串替换。
请注意,有两种类型的字符实体。 一组包括“命名”实体,例如>
和<
(分别为>
和<
),而第二组为“编号”实体。 带编号的实体看起来像 
本例中的“ 32”是指ISO-8859-1字符代码(在这种情况下为空格)。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.