[英]How to get font color using pdfbox
我正在嘗試使用 pdfbox 從 pdf 中提取包含所有信息的文本。 我得到了我想要的所有信息,除了顏色。 我嘗試了不同的方法來獲取字體顏色(包括使用 PDFBox 獲取文本顏色)。 但不工作。 現在我從 pdfBox 的 PageDrawer 類中復制了代碼。 但是RGB值也不正確。
protected void processTextPosition(TextPosition text) {
Composite com;
Color col;
switch(this.getGraphicsState().getTextState().getRenderingMode()) {
case PDTextState.RENDERING_MODE_FILL_TEXT:
com = this.getGraphicsState().getNonStrokeJavaComposite();
int r = this.getGraphicsState().getNonStrokingColor().getJavaColor().getRed();
int g = this.getGraphicsState().getNonStrokingColor().getJavaColor().getGreen();
int b = this.getGraphicsState().getNonStrokingColor().getJavaColor().getBlue();
int rgb = this.getGraphicsState().getNonStrokingColor().getJavaColor().getRGB();
float []cosp = this.getGraphicsState().getNonStrokingColor().getColorSpaceValue();
PDColorSpace pd = this.getGraphicsState().getNonStrokingColor().getColorSpace();
break;
case PDTextState.RENDERING_MODE_STROKE_TEXT:
System.out.println(this.getGraphicsState().getStrokeJavaComposite().toString());
System.out.println(this.getGraphicsState().getStrokingColor().getJavaColor().getRGB());
break;
case PDTextState.RENDERING_MODE_NEITHER_FILL_NOR_STROKE_TEXT:
//basic support for text rendering mode "invisible"
Color nsc = this.getGraphicsState().getStrokingColor().getJavaColor();
float[] components = {Color.black.getRed(),Color.black.getGreen(),Color.black.getBlue()};
Color c1 = new Color(nsc.getColorSpace(),components,0f);
System.out.println(this.getGraphicsState().getStrokeJavaComposite().toString());
break;
default:
System.out.println(this.getGraphicsState().getNonStrokeJavaComposite().toString());
System.out.println(this.getGraphicsState().getNonStrokingColor().getJavaColor().getRGB());
}
我正在使用上面的代碼。 得到的值是 r = 0, g = 0, b = 0, 里面的 cosp 對象值為 [0.0], 里面的 pd 對象數組 = null 和 colorSpace = null。 並且 RGB 值始終為 -16777216。 請幫我。 提前致謝。
我嘗試了您發布的鏈接中的代碼,它對我有用。 我得到的顏色是 148.92、179.01001 和 214.965。 我希望我可以給你我的 PDF 來使用,也許如果我將它存儲在 SO 的外部? 我的 PDF 使用了一種淡藍色,看起來很匹配。 它只是在 Word 2010 中創建並導出的一頁文本,沒有太強烈。
幾個建議......
這就是我現在能想到的全部,否則我有 pdfbox 和 fontbox 的 1.7.1 版本,就像我說的那樣,我幾乎遵循了您提供的鏈接。
編輯
根據我的評論,對於像color.pdf
這樣的 pdf 文件,這里可能是一種微創方式?
在PDFStreamEngine.java
中的processOperator
方法中,可以在 try 塊內執行
if (operation.equals("RG")) {
// stroking color space
System.out.println(operation);
System.out.println(arguments);
} else if (operation.equals("rg")) {
// non-stroking color space
System.out.println(operation);
System.out.println(arguments);
} else if (operation.equals("BT")) {
System.out.println(operation);
} else if (operation.equals("ET")) {
System.out.println(operation);
}
這將顯示信息,然后由您根據需要處理每個部分的顏色信息。 這是在color.pdf
運行時上述代碼輸出開頭的片段...
BT rG [COSInt(1), COSInt(0), CosInt(0)] RG [COSInt(1), COSInt(0), CosInt(0)] ET BT ET BT rG [COSFloat{0.573}, COSFloat{0.816}, COSFloat{0.314}] RG [COSFloat{0.573}, COSFloat{0.816}, COSFloat{0.314}] ET ......
您在上面的輸出中看到一個空的 BT ET 部分,這是一個標記為 DEVICEGRAY 的部分。 所有其他都為您提供 R、G 和 B 分量的 [0,1] 值
我也最終做了這樣的事情。 粘貼代碼如下,希望對大家有所幫助。
import java.io.IOException;
import java.util.List;
import org.apache.pdfbox.exceptions.COSVisitorException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.edit.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDFont;
import org.apache.pdfbox.pdmodel.font.PDType1Font;
import org.apache.pdfbox.pdmodel.graphics.PDGraphicsState;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.pdfbox.util.ResourceLoader;
import org.apache.pdfbox.util.TextPosition;
public class Parser extends PDFTextStripper {
public Parser() throws IOException {
super(ResourceLoader.loadProperties(
"org/apache/pdfbox/resources/PageDrawer.properties", true));
super.setSortByPosition(true);
}
public void parse(String path) throws IOException{
PDDocument doc = PDDocument.load(path);
List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
for (PDPage page : pages) {
this.processStream(page, page.getResources(), page.getContents().getStream());
}
}
@Override
protected void processTextPosition(TextPosition text) {
try {
PDGraphicsState graphicsState = getGraphicsState();
System.out.println("R = " + graphicsState.getNonStrokingColor().getJavaColor().getRed());
System.out.println("G = " + graphicsState.getNonStrokingColor().getJavaColor().getGreen());
System.out.println("B = " + graphicsState.getNonStrokingColor().getJavaColor().getBlue());
}
catch (IOException ioe) {}
}
public static void main(String[] args) throws IOException, COSVisitorException {
Parser p = new Parser();
p.parse("/Users/apple/Desktop/123.pdf");
}
}
我在我的一個維護程序中找到了一些代碼。
我不知道它是否適合您,請嘗試一下。 另請查看此鏈接http://pdfbox.apache.org/apidocs/org/apache/pdfbox/pdmodel/common/class-use/PDStream.html
它可能會幫助你
PDDocument doc = null;
try {
doc = PDDocument.load("C:/Path/To/Pdf/Sample.pdf");
PDFStreamEngine engine = new PDFStreamEngine(ResourceLoader.loadProperties("org/apache/pdfbox/resources/PageDrawer.properties"));
PDPage page = (PDPage)doc.getDocumentCatalog().getAllPages().get(0);
engine.processStream(page, page.findResources(), page.getContents().getStream());
PDGraphicsState graphicState = engine.getGraphicsState();
System.out.println(graphicState.getStrokingColor().getColorSpace().getName());
float colorSpaceValues[] = graphicState.getStrokingColor().getColorSpaceValue();
for (float c : colorSpaceValues) {
System.out.println(c * 255);
}
}
finally {
if (doc != null) {
doc.close();
}
對於 pdfbox 版本 2.0+,有必要在覆蓋的 PDFTextStripper 的構造函數中選擇這些運算符:
addOperator(new SetStrokingColorSpace());
addOperator(new SetNonStrokingColorSpace());
addOperator(new SetStrokingDeviceCMYKColor());
addOperator(new SetNonStrokingDeviceCMYKColor());
addOperator(new SetNonStrokingDeviceRGBColor());
addOperator(new SetStrokingDeviceRGBColor());
addOperator(new SetNonStrokingDeviceGrayColor());
addOperator(new SetStrokingDeviceGrayColor());
addOperator(new SetStrokingColor());
addOperator(new SetStrokingColorN());
addOperator(new SetNonStrokingColor());
addOperator(new SetNonStrokingColorN());
只有這樣 getGraphicsState() 才會返回正確的信息。
這是PdfBox - 如何從文本加載顏色,它應該能夠用比這些其他答案更簡單的解決方案來回答您的問題:)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.