![](/img/trans.png)
[英]How to use regex in Spark Scala to convert RDD to Dataframe after reading an unstructured text file?
[英]How to process unstructured Text File using Spark
我正在寻找使用Spark RDD
处理文本文件的数据,如下所示:
----------------------------*-----------------------
state:xx sub:z |Basic info
company:abc rate:123 |
----------------------------*------------------------
Date: 12-03-2019
我希望数据采用以下格式:
State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019
当我尝试使用data1=data.ReplaceAll('-',"")
函数删除特殊字符'-'时,它也在删除-即使也从日期开始,即12032019,但日期应在12-03-2019以及我没有得到如何将sub:z ,company:abc andrate:123
移到新行。请帮助
在不提供更多详细信息的情况下,以下是我的建议:
-
开头的行,您可能会得到如下内容 state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019
|
state:xx sub:z
company:abc rate:123
Date: 12-03-2019
(空格)与\\n\\r
不确定
Date:
后面是否有空格如果是这样,你可以替换
'Date: '
到'Date:'
第一
state:xx
sub:z
company:abc
rate:123
Date:12-03-2019
希望这会有所帮助
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.