繁体   English   中英

使用pdf2htmlEx工具将pdf转换为html时字体未对齐

[英]Font misalignment during pdf to html conversion using pdf2htmlEx tool

从PDF到HTML转换的字体问题

  1. 缺少所有“ ti”,“ fi”,“ tt”字符

样本画面

  1. 字体重叠问题

样本画面

  • 注意:我没有用Firefox遇到此问题。 在Safari浏览器中的Chrome中获取上述问题

我在用

  • 使用pdf2htmlEX的0.13.6版本
  • 使用以下命令将pdf转换为html

pdf2htmlEX-拆分页面1-缩放3-适合宽度920-正确文本可见性1-目标目录$ 1 $ 2 2>&1

试过

使用--fallback 1选项可以解决上述所有问题。

  1. 后备选项降低了文档的清晰度。
  2. 页面中的表消失了,取而代之的是空白。

怀疑

  1. 您能否解释一下有关备用广告的更多信息?

  2. 我已经尝试了以上一种(使用后备)。 如果您希望采用其他方法来解决上述字体问题,请提出建议。

使用chrome和safari可以解决上述问题,而在Firefox中可以正常工作。

仅在-chrome和safari之类的webkit Web浏览器-提供对连字的支持-而像firefox之类的浏览器却没有这种情况时,才会发生上述问题。

连字是两个或多个字母组合成单个字形的组合

根本原因

缺少字符的问题是由于这些现代浏览器提供的连字支持-让我解释一下

1.转换时的工具-它使用poppler将字符转换为字形以进行渲染-现在这些浏览器遇到诸如tt tf ff ff之类的字符时,会认为它们是连字并搜索与tt而不是tt对应的字形

2.由于它们没有对应的字形-他们只是跳过字符并渲染其余字符-因此,我们发现缺少的字符

可以解决

在这些浏览器中禁用/关闭连字-将CSS嵌入到生成的内容中

有关更多详细信息,请参阅:

如果我错了,请纠正我。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM