[英]how to read a .dat file with delimiter /u0001 and record next record will be separating by next line in spark with scala
[英]How to avoid line breaker in the middle of a single record when spark file process
我已经使用最初从oracle db导出的spark处理了CSV文件,当我处理该csv文件时,我注意到处理后的数据存在一些数据不匹配的问题。
之后,我浏览了该csv文件,然后发现一些记录行被分为多行,(请检查下面的附件图像,请参阅第2、3rd行)
当我使用spark处理提到的数据记录时,由于记录中间有断行符,因此将一个记录作为两个记录。我想使用spark将这两个记录作为单个记录。
请帮助我解决此问题,即如何避免使用断线器,而需要将这两条线作为一条线
spark中有一个multiline
选项。 要读取CSV,您可以这样操作:
val df = spark.read
.option("multiline",true)
.option("header", true)
.csv("your_path/file.csv")
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.