繁体   English   中英

Spark文件处理时如何避免在单个记录中间出现换行符

[英]How to avoid line breaker in the middle of a single record when spark file process

我已经使用最初从oracle db导出的spark处理了CSV文件,当我处理该csv文件时,我注意到处理后的数据存在一些数据不匹配的问题。

之后,我浏览了该csv文件,然后发现一些记录行被分为多行,(请检查下面的附件图像,请参阅第2、3rd行)

样本csv文件

当我使用spark处理提到的数据记录时,由于记录中间有断行符,因此将一个记录作为两个记录。我想使用spark将这两个记录作为单个记录。

请帮助我解决此问题,即如何避免使用断线器,而需要将这两条线作为一条线

spark中有一个multiline选项。 要读取CSV,您可以这样操作:

val df = spark.read
    .option("multiline",true)
    .option("header", true)
    .csv("your_path/file.csv")

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM