簡體   English   中英

如何在Hadoop中訪問和處理pdf文件的數據?

[英]how to access and manipulate pdf file's datas in Hadoop?

我想使用hadoop閱讀PDF文件,怎么可能? 我只知道hadoop只能處理txt文件,因此無論如何都可以將PDF文件解析為txt。

給我一些建議。

一種簡單的方法是創建一個包含PDF文件的SequenceFile SequenceFile是二進制文件格式。 您可以使SequenceFile中的每個記錄成為PDF。 為此,您將創建一個從Writable派生的類,其中包含PDF和所需的任何元數據。 然后,您可以使用任何Java PDF庫(例如PDFBox)來操縱PDF。

可以通過擴展FileInputFormat類來在Hadoop中處理PDF文件。 讓擴展它的類為WholeFileInputFormat。 在WholeFileInputFormat類中,您重寫getRecordReader()方法。 現在,每個pdf都將作為單獨輸入拆分接收。 然后可以解析這些單獨的拆分以提取文本。 鏈接提供了一個清晰的示例,以了解如何擴展FileInputFormat。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM