如何在Apache Spark scala中阅读PDF文件和xml文件？

Question

我的阅读文本文件的示例代码是

val text = sc.hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions)
    var rddwithPath = text.asInstanceOf[HadoopRDD[LongWritable, Text]].mapPartitionsWithInputSplit { (inputSplit, iterator) ⇒
      val file = inputSplit.asInstanceOf[FileSplit]
      iterator.map { tpl ⇒ (file.getPath.toString, tpl._2.toString) }
    }.reduceByKey((a,b) => a)

这样我怎么能使用PDF和Xml文件

Answer 1

可以使用Tika解析PDF和XML：

看看Apache Tika - 一个内容分析工具包 看看 - https://tika.apache.org/1.9/api/org/apache/tika/parser/xml/
- http://tika.apache.org/0.7/api/org/apache/tika/parser/pdf/PDFParser.html
- https://tika.apache.org/1.9/api/org/apache/tika/parser/AutoDetectParser.html
以下是Spark与Tika的示例集成：

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.input.PortableDataStream
import org.apache.tika.metadata._
import org.apache.tika.parser._
import org.apache.tika.sax.WriteOutContentHandler
import java.io._

object TikaFileParser {

  def tikaFunc (a: (String, PortableDataStream)) = {

    val file : File = new File(a._1.drop(5))
    val myparser : AutoDetectParser = new AutoDetectParser()
    val stream : InputStream = new FileInputStream(file)
    val handler : WriteOutContentHandler = new WriteOutContentHandler(-1)
    val metadata : Metadata = new Metadata()
    val context : ParseContext = new ParseContext()

    myparser.parse(stream, handler, metadata, context)

    stream.close

    println(handler.toString())
    println("------------------------------------------------")
  }


  def main(args: Array[String]) {

    val filesPath = "/home/user/documents/*"
    val conf = new SparkConf().setAppName("TikaFileParser")
    val sc = new SparkContext(conf)
    val fileData = sc.binaryFiles(filesPath)
    fileData.foreach( x => tikaFunc(x))
  }
}

Answer 2

PDF可以在pyspark中解析如下：

如果PDF存储在HDFS中，则使用sc.binaryFiles（）作为PDF以二进制格式存储。 然后可以将二进制内容发送到pdfminer进行解析。

import pdfminer
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument

def return_device_content(cont):
    fp = io.BytesIO(cont)
    parser = PDFParser(fp)
    document = PDFDocument(parser)

filesPath="/user/root/*.pdf"
fileData = sc.binaryFiles(filesPath)
file_content = fileData.map(lambda content : content[1])
file_content1 = file_content.map(return_device_content)

可以使用pdfminer提供的功能进一步解析。

Answer 3

您可以简单地使用带有tika的spark-shell，并根据您的使用情况以顺序方式或以分布式方式运行以下代码

spark-shell --jars tika-app-1.8.jar
val binRDD = sc.binaryFiles("/data/")
val textRDD = binRDD.map(file => {new org.apache.tika.Tika().parseToString(file._2.open( ))})
textRDD.saveAsTextFile("/output/")
System.exit(0)

如何在Apache Spark scala中阅读PDF文件和xml文件？

问题描述

3 个解决方案

解决方案1
6 已采纳 2017-02-02 12:00:09

解决方案2
0 2018-07-12 14:53:15

解决方案3
0 2019-01-09 09:52:17

如何在Apache Spark scala中阅读PDF文件和xml文件？

问题描述

3 个解决方案

解决方案1 6 已采纳 2017-02-02 12:00:09

解决方案2 0 2018-07-12 14:53:15

解决方案3 0 2019-01-09 09:52:17

解决方案1
6 已采纳 2017-02-02 12:00:09

解决方案2
0 2018-07-12 14:53:15

解决方案3
0 2019-01-09 09:52:17