[英]How to extract text and word co-ordinates from pdf?
借助Docotic.Pdf库,可以轻松完成此任务。
下面的代码将所有单词及其坐标写入系统控制台,并在每个找到的单词周围绘制一个矩形。
public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
using (PdfDocument pdf = new PdfDocument(inputFileName))
{
PdfPage page = pdf.Pages[0];
foreach (PdfTextData data in page.GetWords())
{
System.Console.WriteLine(data.ToString());
page.Canvas.DrawRectangle(data.Bounds);
}
pdf.Save(outputFileName);
}
System.Diagnostics.Process.Start(outputFileName);
}
除此之外,该库还可以提取格式化的文本( PdfPage.GetTextWithFormatting方法)甚至单个字符( PdfPage.GetChars方法)
免责声明:我是该库的开发人员之一。
这是我发现的最佳工具,但是它不是免费的(而且也不便宜)。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.