繁体   English   中英

保留对pdf到epub的喜爱

[英]Retaining the fond of pdf to epub

我目前正在开发一个使用 python 将 pdf 转换为 epub 的项目。 在将 pdf 转换为 epub 时,像字体系列一样的样式,epub 中的字体大小需要与 pdf 中的字体大小完全相同。 有没有办法使用python实现这一点? 而且我不需要任何外部软件来做到这一点。 我用了aspose。

#我使用的代码

将 aspose.words 导入为 aw

doc = aw.Document("Input.pdf") doc.save("Output.epub")

它是一个简单的文本pdf。

您将获得各种答案/评论,这些答案/评论会要求您显示有关您尝试过的内容的代码并发布示例文档等。

让我为你省去麻烦。 您的问题似乎很简单,因为想要将 pdf 转换为 epub 并保留样式信息。

祝你好运。

这一切都取决于您的 PDF 文件。 它有嵌入字体还是依赖系统字体? 布局复杂? 页眉和页脚? 图像呢? Dingbats 字符? 如果pdf中没有文字,而只是文字字符的后记绘制怎么办? 如果 PDF 仅由 pdf 容器中的多个页面扫描组成怎么办? 都是英文的吗? 任何Unicode字符? 您是否希望在页面级别获得正确的样式? 段落? 句子? 单词? 还是人物等级?

基本上这是一个难题。 PDF 被设计为最终使用格式,而不是可互换的格式。 大多数东西都会转换为 PDF,因为有人想控制最终产品的外观。 您可以查看 PDF 的文本提取工具,但没有使用开源或商业工具的简单解决方案。

您可以使用 Aspose.Words for Python 轻松地将 PDF 转换为 EPUB。 代码非常简单:

import aspose.words as aw

doc = aw.Document("C:\\Temp\\in.pdf")
doc.save("C:\\Temp\\out.epub")

然而,在将 PDF 加载到 Aspose.Words 文档对象模型时,它会从固定页面布局转换为流文档。 当文档保存到 EPUB 时,它会保存为流文档。 恐怕,这可能会导致转换时布局和格式丢失。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM