如何使用pdfbox提取文本内容的字体样式？

Question

我正在使用pdfbox库从pdf文件中提取文本内容。我可以提取所有文本，但找不到提取字体样式的方法。

Answer 1

This is not the right way to extract font. 这不是提取字体的正确方法。 To read font one has to iterate through pdf pages and extract font as below: 要阅读字体，必须遍历pdf页面并提取字体，如下所示：

PDDocument  doc = PDDocument.load("C:/mydoc3.pdf");
List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
for(PDPage page:pages){
    Map<String,PDFont> pageFonts=page.getResources().getFonts();
}

Answer 2

File file = new File("sample.pdf");
        PDDocument document = PDDocument.load(file);

        for (int i = 0; i < document.getNumberOfPages(); ++i)
        {
            PDPage page = document.getPage(i);
            PDResources res = page.getResources();
            for (COSName fontName : res.getFontNames())
            {
                PDFont font = res.getFont(fontName);
                System.out.println(font.getName());

            }
        }

Answer 3

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class pdf2box {
    public static void main(String args[])
    {
        try
        {
    PDDocument pddDocument=PDDocument.load("table2.pdf");
    PDFTextStripper textStripper=new PDFTextStripper();
    System.out.println(textStripper.getText(pddDocument));
    textStripper.getFonts();



    pddDocument.close();
        }
        catch(Exception ex)
        {
        ex.printStackTrace();
        }
    }


}

如何使用pdfbox提取文本内容的字体样式？

问题描述

3 个解决方案

解决方案1
15 已采纳 2012-03-02 18:12:11

解决方案2
0 2018-07-19 10:41:21

解决方案3
0

如何使用pdfbox提取文本内容的字体样式？

问题描述

3 个解决方案

解决方案1 15 已采纳 2012-03-02 18:12:11

解决方案2 0 2018-07-19 10:41:21

解决方案3 0

解决方案1
15 已采纳 2012-03-02 18:12:11

解决方案2
0 2018-07-19 10:41:21

解决方案3
0