cost 89 ms
PDFMiner:如何仅提取正文 - PDFMiner: How to extract only main text

我使用以下代码将 PDF 转换为文本文件。 但是,我只对文档的正文感兴趣,没有数字、没有页码、没有表格、没有标题、没有公式等。 但它给了我一堆文本,其中一些是从表格或公式中提取的短行。 我希望生成的文本对于用户来说是可读的,而无需在文本模式下无法显示的内容。 另一个问题是它将句子分成多行,所以我 ...

使用 PHP 库将多页 PDF 转换为图像 - Converting multipage PDF into images with PHP libraries

我已经在 StackOverFlow 和谷歌上搜索了两天,仍然无法找到解决方案。 我想做的是创建一个 PHP 脚本: 将 PDF 上传到我的网站将文档的每一页转换为单独的图像显示转换后的图像大多数提出类似问题的用户都会使用 ImageMagick 但我的完美解决方案是 PHP 库,你知道吗? ...

PDF 文件操作(打开一个大的 pdf 文件,找到一个关键字,然后保存在哪个页面中找到,然后将这些页面拆分并合并为一个 pdf) - PDF File Manipulation (open a large pdf file, find a keyword, then save in which page was found, and then split those pages and merge them in one pdf)

我正在为我的一个朋友做一个项目。 我想在多个页面上找到一个特定关键字,并且它在大型 PDF 文件(40-60 页及以上)的其他位置有重复项,然后将找到关键字的页面保存在内存中,然后拆分这些页面从原始 PDF 文件,最后,将它们合并在一起。 我正在考虑使用PDFMiner或PyPDF2 (我也愿意接 ...

IronPdf 将文本添加到页面末尾插入新页面 - IronPdf Add text to end of the page inserts new page

我正在尝试操作 pdf,我尝试了一些开源库(例如 pdfSharp、pdfjet),但我无法实现我必须做的事情。 因为pdfsharp是用新页面把它加到pdf里,或者pdfjet把广告放到pdf里。 所以,我不能使用这些库。 我必须达到的是: 我必须在pdf最后一页的末尾放一个字符串。 如果最后 ...

将图形文本的内容流(由 `q` 和 `Q` 组成)转换为适当的内容流 - Convert content stream of graphical text (consisting of `q` and `Q`) to proper content stream

我有一个 pdf,其中 pdf 文档的内容流看起来像 image1。 但是一旦我在 adobe dc 中打开 pdf 并尝试更改阅读顺序。 整个内容流被改变。 (请看图2) 这是源 pdf 的链接https://drive.google.com/file/d/1V2K3-2GdWG5D ...

用pdf计算(Td,TD,Tm,cm,T *)内容流的确切位置? - Calculating the exact positions of(Td, TD, Tm, cm, T*) content stream in pdf?

以pdf格式获取或计算(Td,TD,Tm,cm,T *)内容流的确切位置? 作为一个人,我能够通过比较(其中字形位于pdf和内容流位置值中)来计算(无论是替换最后的Td还是添加到最后的Td或乘以fontsize)标记在pdf内容流中的位置。 但我无法以编程方式计算字形的完美位置。 请看 ...

如何使用 iTextsharp 和 C# 在不破坏文件的情况下删除/替换 PDF 文件中的图像 - How do I delete/replace an image in a PDF file without breaking the file, using iTextsharp and C#

我正在尝试将带有 id 的图像插入到 PDF 文档中,并允许稍后用另一张图像替换它。 我的流程如下: 从客户端获取图像(具有唯一 ID)。 尝试在 PDF 文档中查找具有相同 ID 的现有图像。 如果我找到现有图像,请尝试将其删除并放入新图像,或者尝试用新图像替换现有图像。 (都试过了)。 如果我 ...

PDF 注释只读 .NET - PDF Anotations readonly .NET

我有一个系统,它以图像的形式向 PDF 添加注释。 目前,如果用户下载 PDF,他们可以单击注释并进行操作:移动、调整大小、删除... 我想要一种将注释更改为只读或将它们嵌入到 PDF 中的方法,就像它们是 PDF 的一部分一样。 那可能吗? 任何人都知道如何使用 .NET 实现这一目标? ...

操纵PDF文件 - Manipulating PDF file

我想将PDF文件作为文本(postscript)阅读,在文件结构中添加新对象并将最终输出保存为新PDF但是如果我只是复制了PDF PostScript内容并将其粘贴到新创建的PDF文件中(其中encoding='ansi' ),该文件不起作用。 我确信这可能是编码问题,但我不确定在操作原始 ...

以pdf标记内容 - Tag content in pdf

我有一个pdf,如下所示。 我想将段落标记为“段落”。 我已经对此进行了大量搜索,并且有一些方法可以从头开始创建标记的pdf,或者将html内容转换为标记的pdf,但是我没有成功标记现有的pdf。 鉴于坐标,我可以用pdf标记内容。 在此示例中,我想将段落标记为段落标记。 谢谢。 ...

在Elixir / Erlang中处理可填写的PDF - Manipulating fillable PDFs in Elixir/Erlang

我一直在尝试在Elixir或Erlang中找到示例功能,以获取可填写的PDF,然后使用来自应用程序的输入数据填充它。 到目前为止,我无法在Elixir或Erlang中找到任何解决方案。 有没有人知道我们可以用来实现这个目标的好方法或模块? 提前致谢! ...

Sejda合并CSV文件列表名称中的PDF - Sejda merging PDFs from CSV filelist names

我最近安装了sedja-console用于从命令行合并pdf文件。 输入的pdf文件的名称位于名为filelist-inputs.csv的CSV文件中,如下所示: 我需要一个输出pdf文件用于CSV文件列表名称的第一行,其他输出pdf文件用于第二行的第二行,其他输出用于第三行,依此 ...

从 PDF/Word 文件中提取内容代码 - Extract Contents code from PDF / Word File

我必须使用包含图像、文本字段、表格的 MS Word 和 PDF 大文件。 我需要在特定位置动态地将文本插入到这些文件中。 我曾在 Word 中尝试过书签方法,但现在无法使用该方法。 我已将数据提取到字节数组中并尝试以 pdf 格式写入,但文件已损坏。 这是代码: byte[] b ...

以pdf- IText检索图像的页码 - Retrieve the page number of an image in pdf- IText

我正在使用下面链接中的代码来渲染图像 MyImageRenderListener-IText 下面是我的代码尝试块。 我实际上在做的是查找图像的DPI ,如果图像的dpi低于300,则将其写入文本文件。 现在 ,我还想写这些图像在PDF中的页码。 如何获得该图像的页码? ...

如何在python中使用pdfMiner来预读值 - How to use pdfMiner in python to predicatbly read values

我一直在使用pdfMiner来读取图表中的值,到目前为止,它一直都很棒! 但是,在一个区域中可以以不可预测的方式正确读取正确的数据,这意味着它将以与出现的完全不同的顺序正确读取所有图形值。 这不完全是一个问题,因为只要我知道,说总是首先要读最后一张图,我就可以围绕它构造程序。 除了 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM