如何从pdf中提取文本和单词坐标？

Question

如何从.NET中的PDF文档中提取文本？ 另外，如何获取页面上每个单词的坐标？ 我可以使用iTextSharp或其他组件来执行此操作吗？

Answer 1

借助Docotic.Pdf库，可以轻松完成此任务。

下面的代码将所有单词及其坐标写入系统控制台，并在每个找到的单词周围绘制一个矩形。

public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
    using (PdfDocument pdf = new PdfDocument(inputFileName))
    {
        PdfPage page = pdf.Pages[0];
        foreach (PdfTextData data in page.GetWords())
        {
            System.Console.WriteLine(data.ToString());
            page.Canvas.DrawRectangle(data.Bounds);
        }

        pdf.Save(outputFileName);
    }

    System.Diagnostics.Process.Start(outputFileName);
}

除此之外，该库还可以提取格式化的文本（ PdfPage.GetTextWithFormatting方法）甚至单个字符（ PdfPage.GetChars方法）

免责声明：我是该库的开发人员之一。

Answer 2

试试PDFLib TET

这是我发现的最佳工具，但是它不是免费的（而且也不便宜）。

如何从pdf中提取文本和单词坐标？

问题描述

2 个解决方案

解决方案1
-1 2013-08-13 14:59:20

解决方案2
-3 2013-08-14 12:04:30

如何从pdf中提取文本和单词坐标？

问题描述

2 个解决方案

解决方案1 -1 2013-08-13 14:59:20

解决方案2 -3 2013-08-14 12:04:30

解决方案1
-1 2013-08-13 14:59:20

解决方案2
-3 2013-08-14 12:04:30