繁体   English   中英

如何使用Spark处理非结构化文本文件

[英]How to process unstructured Text File using Spark

我正在寻找使用Spark RDD处理文本文件的数据,如下所示:

----------------------------*-----------------------

   state:xx             sub:z    |Basic info

company:abc        rate:123      |

----------------------------*------------------------

                     Date: 12-03-2019

我希望数据采用以下格式:

State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019

当我尝试使用data1=data.ReplaceAll('-',"")函数删除特殊字符'-'时,它也在删除-即使也从日期开始,即12032019,但日期应在12-03-2019以及我没有得到如何将sub:z ,company:abc andrate:123移到新行。请帮助

在不提供更多详细信息的情况下,以下是我的建议:

  1. 只需删除以-开头的行,您可能会得到如下内容
state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019
  1. 然后删除数据|
state:xx sub:z
company:abc rate:123
Date: 12-03-2019
  1. 更换 (空格)与\\n\\r

    不确定Date:后面是否有空格

    如果是这样,你可以替换'Date: ''Date:'第一

state:xx
sub:z
company:abc
rate:123
Date:12-03-2019

希望这会有所帮助

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM