繁体   English   中英

将HTML实体(如&)转换为Latex

[英]Converting HTML Entities (like &) to Latex

我正在编写一个应用程序,以使用Java和JSOAP从网站上检索某些文章。 该应用程序将文章的某些部分编译成.tex( LaTeX )文档,然后使用PDFLatex将其转换为PDF。

有些页面包含HTML实体,如&或“,这些实体在PDF转换过程中引起错误。如何解决此问题?

有关tex-exchange的问题有一个指向整洁的转换列表的链接。 这些列是(按顺序):

  1. html实体(忽略大小写),不带&;
  2. 对应的unicode字符
  3. 相应的乳胶命令(如果有)。 没有\\

以该列表为起点编写一些转换代码应该很容易。

HTML使用标记来构造数据, 标记由一系列字符定义。 这些标签以某些字符开头,并且包含某些字符,如果要使用分隔标签部分的字符之一,则需要使用一个character实体来表示它们。

这意味着& 并不是单个字符的某种怪异编码,实际上是五个字符的组合,这是向HTML渲染器(如Web浏览器)发出的仅显示字符&信号。

Tex是另一种野兽,它对使用“裸” & HTML的限制不一样,因此在使用Tex处理此类数据之前,您需要使用常规字符对所有HTML字符实体进行字符串替换。

请注意,有两种类型的字符实体。 一组包括“命名”实体,例如&gt; &lt; (分别为>< ),而第二组为“编号”实体。 带编号的实体看起来像&#32; 本例中的“ 32”是指ISO-8859-1字符代码(在这种情况下为空格)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM