繁体 English 中英

将HTML实体（如＆）转换为Latex

[英]Converting HTML Entities (like &) to Latex

原文 2012-09-13 19:01:16 6 2 java/ html/ encoding/ utf-8/ latex

我正在编写一个应用程序，以使用Java和JSOAP从网站上检索某些文章。 该应用程序将文章的某些部分编译成.tex（ LaTeX ）文档，然后使用PDFLatex将其转换为PDF。

有些页面包含HTML实体，如＆或“，这些实体在PDF转换过程中引起错误。如何解决此问题？

2 个解决方案

有关tex-exchange的问题有一个指向整洁的转换列表的链接。 这些列是（按顺序）：

html实体（忽略大小写），不带&和;
对应的unicode字符
相应的乳胶命令（如果有）。 没有\\

以该列表为起点编写一些转换代码应该很容易。

HTML使用标记来构造数据，标记由一系列字符定义。 这些标签以某些字符开头，并且包含某些字符，如果要使用分隔标签部分的字符之一，则需要使用一个character实体来表示它们。

这意味着& 并不是单个字符的某种怪异编码，实际上是五个字符的组合，这是向HTML渲染器（如Web浏览器）发出的仅显示字符&信号。

Tex是另一种野兽，它对使用“裸” & HTML的限制不一样，因此在使用Tex处理此类数据之前，您需要使用常规字符对所有HTML字符实体进行字符串替换。

请注意，有两种类型的字符实体。 一组包括“命名”实体，例如> 和< （分别为>和< ），而第二组为“编号”实体。 带编号的实体看起来像  本例中的“ 32”是指ISO-8859-1字符代码（在这种情况下为空格）。

反序列化包含html的json而不转换实体

[英]Deserialize json containing html without converting entities

禁用 Struts 将 HTML 标签转换为实体

[英]Disable Struts converting HTML tags into entities

如何在Java中对html实体** except ** <>＆“'进行转义

[英]how to unescape html entities **except** < > & " ' in java

转义编码为\\ u0的html实体

[英]unescaping html entities which are encoded like \u0

将 JPA 实体转换为地图

[英]Converting JPA Entities to a Map

当我需要信息时，Jsoup转换到＆

[英]Jsoup converting & to & when I require that info as it is

当从xml转换为Java对象时，xstream将＆转换为＆。

[英]xstream is converting & to & when converting from xml to Java Objects

将Java字符串数组转换为LaTeX表

[英]Converting Array of Java Strings into LaTeX table

Restful-将Hibernate实体转换为JSON

[英]Restful - Converting Hibernate entities to JSON

替换＆仅在部分html文档中的链接中

[英]Replace & only in links in a partial html document

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 反序列化包含html的json而不转换实体禁用 Struts 将 HTML 标签转换为实体如何在Java中对html实体** except ** <>＆“'进行转义转义编码为\\ u0的html实体将 JPA 实体转换为地图当我需要信息时，Jsoup转换到＆当从xml转换为Java对象时，xstream将＆转换为＆。将Java字符串数组转换为LaTeX表 Restful-将Hibernate实体转换为JSON 替换＆仅在部分html文档中的链接中

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM