簡體 English 中英

如何在Hadoop中訪問和處理pdf文件的數據？

[英]how to access and manipulate pdf file's datas in Hadoop?

原文 2012-02-15 08:36:17 3 2 hadoop/ hadoop-streaming/ hadoop-plugins/ hadoopy

我想使用hadoop閱讀PDF文件，怎么可能？ 我只知道hadoop只能處理txt文件，因此無論如何都可以將PDF文件解析為txt。

給我一些建議。

2 個解決方案

一種簡單的方法是創建一個包含PDF文件的SequenceFile 。 SequenceFile是二進制文件格式。 您可以使SequenceFile中的每個記錄成為PDF。 為此，您將創建一個從Writable派生的類，其中包含PDF和所需的任何元數據。 然后，您可以使用任何Java PDF庫（例如PDFBox）來操縱PDF。

可以通過擴展FileInputFormat類來在Hadoop中處理PDF文件。 讓擴展它的類為WholeFileInputFormat。 在WholeFileInputFormat類中，您重寫getRecordReader（）方法。 現在，每個pdf都將作為單獨輸入拆分接收。 然后可以解析這些單獨的拆分以提取文本。 該鏈接提供了一個清晰的示例，以了解如何擴展FileInputFormat。

如何將文件（PDF）傳輸到Hadoop文件系統

[英]How to transfer a file(PDF) to Hadoop file system

Hadoop：如何知道HDFS文件訪問詳細信息？

[英]Hadoop: How to know HDFS file access details?

如何使用 on prem hadoop 集群訪問 s3 文件？

[英]How to access s3 files using on prem hadoop cluster?

訪問hadoop文件系統中的文件

[英]Access a file in hadoop file system

hadoop無法訪問s3

[英]hadoop can not access the s3

如何訪問WSO2 BAM的hadoop作業跟蹤器？

[英]How to access WSO2 BAM's hadoop job tracker?

如何將.txt文件轉換為Hadoop的序列文件格式

[英]How to convert .txt file to Hadoop's sequence file format

如何從hadoop緩存中存在的文本文件訪問文本

[英]how to access the texts from a text file present in hadoop cache

如何使用.boto文件啟用hadoop訪問Google Cloud

[英]How to enable hadoop access to Google Cloud using .boto file

使用Hadoop最快訪問文件

[英]Fastest access of a file using Hadoop

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何將文件（PDF）傳輸到Hadoop文件系統 Hadoop：如何知道HDFS文件訪問詳細信息？如何使用 on prem hadoop 集群訪問 s3 文件？訪問hadoop文件系統中的文件 hadoop無法訪問s3 如何訪問WSO2 BAM的hadoop作業跟蹤器？如何將.txt文件轉換為Hadoop的序列文件格式如何從hadoop緩存中存在的文本文件訪問文本如何使用.boto文件啟用hadoop訪問Google Cloud 使用Hadoop最快訪問文件

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM