cost 328 ms
在 pyspark - python 中读取 excel 时,我无法执行 skipFirstRows 参数 - i'm unable to perform skipFirstRows parameter while reading excel in pyspark - python

注意:在我的情况下,我们在读取 excel 时不应使用 pandas.read_excel() 。 我们只需要使用安装在我们集群中的 spark-excel jar 即可。 我的主要观点是。 我们在 excel 表中跳过了几行,同时使用任何逻辑或任何参数(如(“skipFirstRows”、“[in ...

为什么数据框在使用 com.crealytics.spark.excel 读取时未在 spark 中抛出带有“FAILFAST”选项的 RunTimeException? - Why data frame not throwing RunTimeException with "FAILFAST" option in spark while reading using com.crealytics.spark.excel?

在 pyspark 上方读取 excel dataframe 片段在从不正确/损坏的数据读取(使用 show() 调用操作)时没有失败/抛出运行时异常。 However option("mode", "FAILFAST") is working fine for CSV but when I a ...

在 Yarn 上运行 Spark 作业时,HDFS Excel Rows 减少了 - HDFS Excel Rows got decreased when running the spark job on Yarn

在本地(IntelliJ IDEA)中运行相同的作业时,输出计数很好(例如 -55)。 但是当使用 spark-submit 在 Yarn 上提交时,只得到几行(行 -12)。 当使用 master - yarn 获取部分行时。 当使用本地时 - 能够读取所有行但得到异常 - Caused by ...

使用 apache spark 读取 excel 文件 - Read excel files with apache spark

(新到 apache 火花) 我尝试创建一个小型 Scala Spark 应用程序,它读取 excel 文件并将数据插入数据库,但由于库版本不同(我认为),我有一些错误。 Maven配置为: 主.scala 错误是: 仅当我尝试读取 excel 文件时才会发生这种情况,因为我使用 spark-e ...

在java中使用crealytics / spark-excel将多个org.apache.spark.sql.Dataset写入.xls文件时如何提及单个工作表名称? - How to mention individual sheet names while writing mutiple org.apache.spark.sql.Dataset into an .xls file using crealytics / spark-excel in java?

我正在尝试使用 crealytics/spark-excel 库将不同的 Java 数据集写入一个 excel 文件,该文件将包含多个工作表。 如何为这些单独的 Excel 工作表提供名称? 这是我想要做的: ...

在 Spark 错误中读取 Excel:class ZipArchiveInputStream 的 InputStream 未实现 InputStreamStatistics - Read Excel in Spark Error :InputStream of class ZipArchiveInputStream is not implementing InputStreamStatistics

我正在尝试通过 spark 从 COS 读取 excel 文件,像这样 在这段代码中,我首先创建一个空的 dataframe,然后读取所有 excel 文件(通过迭代文件路径)并通过联合操作合并数据。 它抛出这样的错误 sparkExcel 版本为 0.10.2 ...

如何在 Scala/Spark 中创建包含来自多个 DataFrame 的多个工作表的 excel 文件? - How in Scala/Spark create excel file with multiple sheets from multiple DataFrame?

在Scala/Spark应用程序中,我创建了两个不同的 DataFrame。 我的任务是为每个 DataFrame 创建一个带有两张工作表的 excel 文件。 我决定使用spark-excel库,但我有点困惑。 据我了解,未来的excel文件是保存在hdfs文件系统中的吧? 我需要在.save( ...

Spark excel:读取带有多行标题的 excel 文件抛出异常:方法抛出“scala.MatchError”异常 - Spark excel: reading excel file with multi line header throw an exception: Method threw 'scala.MatchError' exception

我正在使用spark-excel读取 excel 文件,问题是每当我使用带有多行标题的文件时,数据集的 QueryExecution 抛出异常Method threw 'scala.MatchError' exception. Cannot evaluate org.apache.spark.sql ...

spark-excel 数据类型问题 - spark-excel dataype issues

我正在使用spark-excel包来处理使用 spark 2.2 的 ms excel 文件。 某些文件无法作为火花数据框加载,但有以下异常。 如果有人遇到过这个问题,您能帮忙解决此类数据类型问题吗? 分析后我发现如果列名不是字符串,它最终会给出以下异常,如果我手动将列名从整数更改为字符串,它工作 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM