繁体 English 中英

Spark文件处理时如何避免在单个记录中间出现换行符

[英]How to avoid line breaker in the middle of a single record when spark file process

原文 2019-03-21 08:38:34 6 1 scala/ apache-spark

我已经使用最初从oracle db导出的spark处理了CSV文件，当我处理该csv文件时，我注意到处理后的数据存在一些数据不匹配的问题。

之后，我浏览了该csv文件，然后发现一些记录行被分为多行，（请检查下面的附件图像，请参阅第2、3rd行）

样本csv文件

当我使用spark处理提到的数据记录时，由于记录中间有断行符，因此将一个记录作为两个记录。我想使用spark将这两个记录作为单个记录。

请帮助我解决此问题，即如何避免使用断线器，而需要将这两条线作为一条线

1 个解决方案

spark中有一个multiline选项。 要读取CSV，您可以这样操作：

val df = spark.read
    .option("multiline",true)
    .option("header", true)
    .csv("your_path/file.csv")

如何使用定界符/ u0001读取.dat文件并记录下一条记录，如何在scala中用spark的下一行分隔

[英]how to read a .dat file with delimiter /u0001 and record next record will be separating by next line in spark with scala

如何在Spark中处理多行输入记录

[英]How to process multi line input records in Spark

如何在读取文本文件spark / scala RDD时将每9行文件作为一条记录

[英]how to take every 9 lines of file as single record while reading textfile spark/scala RDD

如何使用Spark从文本文件中提取多行记录

[英]How can I extract multi-line record from a text file with Spark

如何使用Spark处理非结构化文本文件

[英]How to process unstructured Text File using Spark

如何使用Spark Scala查找和删除记录之间的新行

[英]How to Find and remove new line in between the record by using spark scala

使用Spark处理txt文件

[英]Process txt file with Spark

如何避免Spark的for循环？

[英]How to avoid for loop with Spark?

使用Spark Scala根据行值（示例文件中的标头记录）从单个文件创建多个RDD

[英]Create multiple RDDs from single file based on row value ( header record in sample file) using Spark scala

漂亮的打印-Spark / Scala中的XML单个记录

[英]Pretty print - XML single record in Spark / Scala

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用定界符/ u0001读取.dat文件并记录下一条记录，如何在scala中用spark的下一行分隔如何在Spark中处理多行输入记录如何在读取文本文件spark / scala RDD时将每9行文件作为一条记录如何使用Spark从文本文件中提取多行记录如何使用Spark处理非结构化文本文件如何使用Spark Scala查找和删除记录之间的新行使用Spark处理txt文件如何避免Spark的for循环？使用Spark Scala根据行值（示例文件中的标头记录）从单个文件创建多个RDD 漂亮的打印-Spark / Scala中的XML单个记录

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM