如何使用Spark处理非结构化文本文件

Question

我正在寻找使用Spark RDD处理文本文件的数据，如下所示：

----------------------------*-----------------------

   state:xx             sub:z    |Basic info

company:abc        rate:123      |

----------------------------*------------------------

                     Date: 12-03-2019

我希望数据采用以下格式：

State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019

当我尝试使用data1=data.ReplaceAll('-',"")函数删除特殊字符'-'时，它也在删除-即使也从日期开始，即12032019，但日期应在12-03-2019以及我没有得到如何将sub:z ,company:abc andrate:123移到新行。请帮助

Answer 1

在不提供更多详细信息的情况下，以下是我的建议：

只需删除以-开头的行，您可能会得到如下内容

state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019

然后删除数据|

state:xx sub:z
company:abc rate:123
Date: 12-03-2019

更换 （空格）与\\n\\r

不确定Date:后面是否有空格

如果是这样，你可以替换'Date: '到'Date:'第一

state:xx
sub:z
company:abc
rate:123
Date:12-03-2019

希望这会有所帮助

如何使用Spark处理非结构化文本文件

问题描述

1 个解决方案

解决方案1
1 2019-08-09 07:21:15

如何使用Spark处理非结构化文本文件

问题描述

1 个解决方案

解决方案1 1 2019-08-09 07:21:15

解决方案1
1 2019-08-09 07:21:15