标签[spark-excel] - 堆栈内存溢出

在 pyspark - python 中读取 excel 时，我无法执行 skipFirstRows 参数 - i'm unable to perform skipFirstRows parameter while reading excel in pyspark - python

注意：在我的情况下，我们在读取 excel 时不应使用 pandas.read_excel() 。我们只需要使用安装在我们集群中的 spark-excel jar 即可。我的主要观点是。我们在 excel 表中跳过了几行，同时使用任何逻辑或任何参数（如（“skipFirstRows”、“[in ...

为什么数据框在使用 com.crealytics.spark.excel 读取时未在 spark 中抛出带有“FAILFAST”选项的 RunTimeException？ - Why data frame not throwing RunTimeException with "FAILFAST" option in spark while reading using com.crealytics.spark.excel?

在 pyspark 上方读取 excel dataframe 片段在从不正确/损坏的数据读取（使用 show() 调用操作）时没有失败/抛出运行时异常。 However option("mode", "FAILFAST") is working fine for CSV but when I a ...

读取火花中的百分比值 - read percentage values in spark

我有一个 xlsx 文件，它只有一列；当我使用 Apache-Spark 阅读这篇文章时，我得到的是，预计 output 是，我的代码 - 我不想使用强制转换或将 inferschema 转换为 false，我想要一种将百分比值读取为百分比而不是双精度值或字符串的方法。 ...

在 Yarn 上运行 Spark 作业时，HDFS Excel Rows 减少了 - HDFS Excel Rows got decreased when running the spark job on Yarn

在本地（IntelliJ IDEA）中运行相同的作业时，输出计数很好（例如 -55）。但是当使用 spark-submit 在 Yarn 上提交时，只得到几行（行 -12）。当使用 master - yarn 获取部分行时。当使用本地时 - 能够读取所有行但得到异常 - Caused by ...

使用 apache spark 读取 excel 文件 - Read excel files with apache spark

（新到 apache 火花）我尝试创建一个小型 Scala Spark 应用程序，它读取 excel 文件并将数据插入数据库，但由于库版本不同（我认为），我有一些错误。 Maven配置为：主.scala 错误是：仅当我尝试读取 excel 文件时才会发生这种情况，因为我使用 spark-e ...

在java中使用crealytics / spark-excel将多个org.apache.spark.sql.Dataset写入.xls文件时如何提及单个工作表名称？ - How to mention individual sheet names while writing mutiple org.apache.spark.sql.Dataset into an .xls file using crealytics / spark-excel in java?

我正在尝试使用 crealytics/spark-excel 库将不同的 Java 数据集写入一个 excel 文件，该文件将包含多个工作表。如何为这些单独的 Excel 工作表提供名称？这是我想要做的： ...

在 pyspark 中读取 Excel (.xlsx) 文件 - Reading Excel (.xlsx) file in pyspark

我正在尝试从 PySpark 中的本地路径读取 .xlsx 文件。我写了下面的代码：错误：类型错误：“DataFrameReader”对象不可调用 ...

如何以orc格式在已经创建的hive表中加载excel数据 - how to load excel data in already created hive table in orc format

我需要以 orc 格式在已经创建的配置单元表中加载数据。即我需要从 excel 表中读取数据，创建数据框，然后以 orc 格式将其加载到 hive 表中。 ...

如何使用 apache spark scala 读取 XLSX 的整个目录？ - how to read a whole directory of XLSX with apache spark scala?

我必须读取 xlsx 文件的整个目录，并且需要使用 Scala 使用 Apache Spark 加载所有目录。实际上我正在使用这个依赖： "com.crealytics" %% "spark-excel" % "0.12.3" ，我不知道如何加载所有。 ...

在 Spark 错误中读取 Excel：class ZipArchiveInputStream 的 InputStream 未实现 InputStreamStatistics - Read Excel in Spark Error :InputStream of class ZipArchiveInputStream is not implementing InputStreamStatistics

我正在尝试通过 spark 从 COS 读取 excel 文件，像这样在这段代码中，我首先创建一个空的 dataframe，然后读取所有 excel 文件（通过迭代文件路径）并通过联合操作合并数据。它抛出这样的错误 sparkExcel 版本为 0.10.2 ...

尝试通过 com.crealytics.spark.excel 读取 excel 文件时出现 scala.MatchError - scala.MatchError while trying to read excel file via com.crealytics.spark.excel

我正在尝试通过 com.crealytics.spark.excel 读取 excel 文件。但是我在尝试运行我的代码时遇到以下错误：这是我的代码： ...

如何在 Scala/Spark 中创建包含来自多个 DataFrame 的多个工作表的 excel 文件？ - How in Scala/Spark create excel file with multiple sheets from multiple DataFrame?

在Scala/Spark应用程序中，我创建了两个不同的 DataFrame。我的任务是为每个 DataFrame 创建一个带有两张工作表的 excel 文件。我决定使用spark-excel库，但我有点困惑。据我了解，未来的excel文件是保存在hdfs文件系统中的吧？我需要在.save( ...

使用整数列在 Spark 中读取 Excel 文件 - Reading a Excel file in Spark with an integer column

我有一组 Excel 工作表，我试图通过com.crealytics.spark.excel包通过 spark 读取它们。在我的 Excel 工作表中，我有一列包含整数 ID 的调查ID。当我通过 spark 读取数据时，我看到这些值被转换为双精度值。从 Excel 工作表读取时如何保留整数 ...

如果 Excel 文件是我在 databricks 中的源文件，如何创建数据框 - How to create data frame if Excel file is my source file in databricks

我有一个 Excel 文件作为源文件，我想从 Excel 文件中读取数据并使用 Databricks 在 DataFrame 中转换数据。我是 Scala 的新手。 ...

使用scala从excel构建数据框 - Construct a dataframe from excel using scala

我正在寻找使用scala从spark中的excel文件构造数据框的方法？我在下面的SO帖子中提到并尝试对附加的excel表进行操作。如何从 Scala Spark 中的 Excel (xls,xlsx) 文件构造数据框？不幸的是，下面修改过的代码没有读取 excel 中的所有列。 ...

Spark excel：读取带有多行标题的 excel 文件抛出异常：方法抛出“scala.MatchError”异常 - Spark excel: reading excel file with multi line header throw an exception: Method threw 'scala.MatchError' exception

我正在使用spark-excel读取 excel 文件，问题是每当我使用带有多行标题的文件时，数据集的 QueryExecution 抛出异常Method threw 'scala.MatchError' exception. Cannot evaluate org.apache.spark.sql ...

Spark：使用 spark-excel 跳过顶行 - Spark : skip top rows with spark-excel

我有一个 excel 文件，顶部有损坏的行（前 3 行）需要跳过，我正在使用spark-excel库读取 excel 文件，在他们的 ZBF215181B5140522137B3D4F6B73 上没有这样的功能实现这个？这是我的代码： ...

使用 Spark Java Excel 从 excel 文件加载数据 - Loading Data from an excel File using Spark Java Excel

我想使用 Spark Session 2.2 从 HDFS 中的 Excel 文件加载数据。下面是我的 Java 代码和我得到的异常。我得到了这个例外： java.lang.NoSuchMethodError: org.apache.poi.ss.usermodel.Workbook ...

使用 Spark 将数据框写入 Excel 工作表中的多个选项卡 - Write dataframe to multiple tabs in a excel sheet using Spark

我一直在使用 Spark-excel ( https://github.com/crealytics/spark-excel ) 将输出写入 Excel 工作表的单个工作表。但是，我无法将输出写入不同的工作表（标签）。任何人都可以提出任何替代方案吗？谢谢，赛 ...

spark-excel 数据类型问题 - spark-excel dataype issues

我正在使用spark-excel包来处理使用 spark 2.2 的 ms excel 文件。某些文件无法作为火花数据框加载，但有以下异常。如果有人遇到过这个问题，您能帮忙解决此类数据类型问题吗？分析后我发现如果列名不是字符串，它最终会给出以下异常，如果我手动将列名从整数更改为字符串，它工作 ...