如何從 PDFBox 2.0.2 中的 PDDocument 中提取字體

Question

我已經在以前的版本中看到了如何做到這一點，如下所示：

但我認為 getFonts() 方法現在已被刪除。 我想在新版本的 PDFBox 中檢索文本到字體的映射（ Map<String, PDFont> ），但我不知道如何。

謝謝

卡比爾

Answer 1

這樣做：

PDDocument doc = PDDocument.load("C:/mydoc3.pdf");
for (int i = 0; i < doc.getNumberOfPages(); ++i)
{
    PDPage page = doc.getPage(i);
    PDResources res = page.getResources();
    for (COSName fontName : res.getFontNames())
    {
        PDFont font = res.getFont(fontName);
        // do stuff with the font
    }
}

Answer 2

 PDFMetaData pdfMeta = new PDFMetaData();
 PDDocument document = PDDocument.load(new File("/Users/ban.pdf"));
 PDPage page = document.getPage(0);
 PDResources res = page.getResources();
 for (COSName fontName : res.getFontNames())
{
  PDFont font = res.getFont(fontName);
  pdfMeta.setFontName(font);                    
}

Answer 3

對於 PDFBox 2.x，您鏈接到的答案的修訂代碼是

PDDocument  doc = PDDocument.load("C:/mydoc3.pdf");
for(PDPage page : doc.getPages()){
    // get the names of the fonts in the resources dictionary
    Iterable<COSName> iterable = page.getResources().getFontNames();
    // to get the font for each item call
    // page.getResources().getFont(COSName name);
}

Answer 4

這是使用pdfbox 2.0.6提取PDF文件的字體。

import java.io.File;
import java.util.List;
import java.util.Map;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.font.PDFont;
public class PDFFontExtractor {
    public static void main(String args[])
    {
        try
        {  
            PDDocument pddDocument = PDDocument.load(new File("C:\\Users\\Desktop\\sample1.pdf"));
            for (int i = 0; i < pddDocument.getNumberOfPages(); ++i)
            {
                PDPage page = pddDocument.getPage(i);
                PDResources res = page.getResources();
                for (COSName fontName : res.getFontNames())
                {
                    PDFont font = res.getFont(fontName);
                    System.out.println("FONT :: "+ font);
                }
            } 
        }
        catch(Exception ex)
        {
            ex.printStackTrace();
        }
    }
}

如何從 PDFBox 2.0.2 中的 PDDocument 中提取字體

問題描述

4 個解決方案

解決方案1
4 已采納 2016-07-14 08:57:20

解決方案2
1 2020-05-11 05:35:37

解決方案3
0 2016-07-14 09:07:41

解決方案4
-2 2017-09-14 05:37:16

如何從 PDFBox 2.0.2 中的 PDDocument 中提取字體

問題描述

4 個解決方案

解決方案1 4 已采納 2016-07-14 08:57:20

解決方案2 1 2020-05-11 05:35:37

解決方案3 0 2016-07-14 09:07:41

解決方案4 -2 2017-09-14 05:37:16

解決方案1
4 已采納 2016-07-14 08:57:20

解決方案2
1 2020-05-11 05:35:37

解決方案3
0 2016-07-14 09:07:41

解決方案4
-2 2017-09-14 05:37:16