繁体   English   中英

使用Scala的io.Text RDD上的正则表达式

[英]Regex on io.Text RDD using scala

我有个问题。 我需要从这样的文件中提取一些数据:

(3269,
<page>
<title>Anarchism</title>
<ns>0</ns>
<id>12</id>
<revision>...
)
(194712,
<page>
<title>AssistiveTechnology</title>
<ns>0</ns>
<id>23</id>.. 
) etc...

该文件是使用以下命令生成的:

val conf = new Configuration
conf.set("textinputformat.record.delimiter", "</page>")
val rdd=sc.newAPIHadoopFile("sample.bz2", classOf[TextInputFormat], classOf[LongWritable], classOf[Text], conf)
rdd.map{case (k,v) => (k.get(), new String(v.copyBytes()))}

我需要获取标题内容。 我正在使用正则表达式,但是输出文件仍然为空。 我的代码是这样的:

val xx = rdd.map(x => x._2).filter(x => x.matches(".*<title>([A-Za-z]+)<\\/title>.*"))

我也尝试以下方法:

".*<title>([A-Za-z]+)</title>.*"

并使用这个:

val reg = ".*<title>([\\w]+)</title>.*".r
val xx = rdd.map(x => x._2).filter(x => reg.pattern.matcher(x).matches)

我使用sbt创建.jar并使用spark-submit运行。

顺便说一句,使用spark-shell它起作用:S

我需要你的帮助。 谢谢。

您可以使用内置的Scala对XML的支持。 就像是

导入scala.xml._
rdd.map(x =>(XML.loadString(x._2)\\“ title”)。text)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM