繁体   English   中英

使用itext从pdf提取数学文本

[英]Extracting Mathematical text from pdf using itext

我有一本pdf教科书,里面有这样的数学方程式: 样本PDF

但是,如果我尝试进行简单的文本提取,则会得到以下信息:V(r)=-3--2R R2这不是图像,而是文本,但我不知道如何保留其外观并将实际字符输入文本文件。

您遇到的问题是一个经常遇到的问题。 PDF本质上并不关心结构。 它没有列,段落,一行文本甚至一个单词的概念,更不用说具有许多特殊格式的数学公式了。

实际上,PDF仅对将内容放置在页面上的特定位置感兴趣。 这也正是您的公式所执行的操作,它将使用公式所需的字符和图形并将它们放在页面上的某个位置。 在没有其他知识的情况下,您以后便可以使用这些信息来确定这些字符和图形甚至属于公式。 更不用说在进行文本提取时重建它了。

另外两点:

1)如果您共享这样一个PDF文档的示例,我们可以看看其中是否包含一些有用的信息,这些信息可以用来更有效地提取此公式; 但机会几乎为零。

2)您还必须从您的角度定义什么是“有用的方法”。 公式无法很好地转换为纯文本文件,因此您可能需要使用MathML之类的东西来存储它们。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM