繁体 English 中英

如何将Word文档/ pdf /图像的部分（每页多个部分，多页）提取为单独的图像/ Word文档/ pdfs？

[英]How do I extract sections (multiple sections per page, multiple pages) of a word document/pdf/image as separate images/word documents/pdfs?

原文 2010-06-30 10:15:51 1 2 c#/ java/ c++/ pdf/ image

这是基本问题：我大约有10,000个包含数据块的word文档。 每个块都有编号，并且还带有一个图像。 我需要以某种方式将这些单独的块作为图像存储到数据库（文本会很好，但是请阅读下面的注释），而无需编号。

我可以使用### QUESTIONSTART ###，### QUESTIONEND ###或其他方法来让打字员标记块的开始和结束。 我正在尝试获取该文档，将其转换为大图像，查找那些标签，将标签之间的部分提取为图像，然后移至下一个块。

我一直在研究一些API，我认为一旦弄清楚如何获取每个开始/结束标记的坐标，就可以肯定可以裁剪图像。 有什么建议么？ 我不愿写一个逐个像素匹配器，该匹配器必须为O（块数* n ^ 2）

注意：这些块包含复杂的方程式/数学类型的内容，因此包含图像。 我没有$$可以让1000名打字员接受TeX培训并重新输入整个交易。 OCR尚未削减。

2 个解决方案

我无法理解您的所有问题，但在我看来， Tika可以为您提供帮助。

如果您可以让打字员在10,000个文档中添加方框标记，为什么打字员不能

打开Word文档
复制Word文档中的图像
将图像粘贴到Paint中
将映像保存到他们的磁盘上？

您可以提出一种对您和您的打字员有意义的图像命名方案。

然后，您可以使用程序从磁盘驱动器中收集映像并将其加载到数据库中。

复制Word文档Sections的内容

[英]Copy content of word document Sections

从具有多个页面的多个 word 文档中读取并通过使用 C# 仅选择包含特定单词的某些页面来创建 PDF

[英]Read from multiple word documents with multiple pages and create a PDF by only selecting certain pages containing a specific word using C#

在一个页面上从Word文档打印多页

[英]print multiple pages from a word document on one page

合并多个 <Body> （xml）Word文档到1个文档

[英]Merge multiple <Body> (xml) word documents to 1 document

如何使用多个线程来分节处理图像？

[英]How to use multiple threads to process an image in sections?

如何在uwp中将图像转换为pdf和Word文档？

[英]How can I convert images to pdf and Word document in uwp?

如何删除巨大PDF中的页面顶部没有特定单词的页面？希望在C＃中

[英]How can I delete the pages in an enormous PDF that do not contain a certain word at the top of the page? Hopefully in C#

如何将Word文档的所有页面另存为图像？

[英]How to save all pages of a Word document as image?

根据用户对一系列问题的回答隐藏 Word 文档中的部分

[英]Hide sections in a word document based on users responses to a series of questions

Word文档多个背景

[英]Word Document Multiple Backgrounds

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 复制Word文档Sections的内容从具有多个页面的多个 word 文档中读取并通过使用 C# 仅选择包含特定单词的某些页面来创建 PDF 在一个页面上从Word文档打印多页合并多个 <Body> （xml）Word文档到1个文档如何使用多个线程来分节处理图像？如何在uwp中将图像转换为pdf和Word文档？如何删除巨大PDF中的页面顶部没有特定单词的页面？希望在C＃中如何将Word文档的所有页面另存为图像？根据用户对一系列问题的回答隐藏 Word 文档中的部分 Word文档多个背景

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM