簡體   English   中英

使用Apache Tika解析大型PDF文件

[英]Parsing Large PDF file using Apache Tika

使用Apache Tika解析大型PDF文件時遇到一些問題。 文件大小接近5 MB。

這是代碼:

package com.ibm.lnk.processor;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;

import com.ibm.lnk.utility.LNKProcessorUtility;

public class TestClient {
public static void main(String[] args) throws IOException {
    InputStream inputStream=null;
    try {
         inputStream=new FileInputStream(new File("C:\\CognitiveAssignment\\ProjectSpecificMaterials\\C3Portal\\TestData\\T1\\Anupam Sarkar_IBM_CV.pdf"));
        String content=LNKProcessorUtility.getTextContent(inputStream);
        System.out.println(content);
    } catch (Exception e) {
        System.out.println(e);
    }finally {
        inputStream.close();
    }
}
}

我得到的異常是:

org.apache.tika.exception.TikaException:無法提取所有PDF內容

任何人都可以幫助我解決問題嗎?

嘗試使用apache pdfbox從pdf讀取文本

示例代碼-

    import java.io.File;
    import java.io.IOException;
    import org.apache.pdfbox.pdmodel.PDDocument;
    import org.apache.pdfbox.text.PDFTextStripper;

    public class PDFTextReader {

    public static void main(String[] args) throws Exception {       
       File file = new File("<any pdf>");
       PDDocument inputDoc= PDDocument.load(file);   
       PDFTextStripper stripper = new PDFTextStripper();        
       System.out.println("Text: " + stripper.getText(inputDoc));  
       }
    }

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM