注意:在我的情况下,我们在读取 excel 时不应使用 pandas.read_excel() 。 我们只需要使用安装在我们集群中的 spark-excel jar 即可。 我的主要观点是。 我们在 excel 表中跳过了几行,同时使用任何逻辑或任何参数(如(“skipFirstRows”、“[in ...
注意:在我的情况下,我们在读取 excel 时不应使用 pandas.read_excel() 。 我们只需要使用安装在我们集群中的 spark-excel jar 即可。 我的主要观点是。 我们在 excel 表中跳过了几行,同时使用任何逻辑或任何参数(如(“skipFirstRows”、“[in ...
在 pyspark 上方读取 excel dataframe 片段在从不正确/损坏的数据读取(使用 show() 调用操作)时没有失败/抛出运行时异常。 However option("mode", "FAILFAST") is working fine for CSV but when I a ...
我有一个 xlsx 文件,它只有一列; 当我使用 Apache-Spark 阅读这篇文章时,我得到的是, 预计 output 是, 我的代码 - 我不想使用强制转换或将 inferschema 转换为 false,我想要一种将百分比值读取为百分比而不是双精度值或字符串的方法。 ...
在本地(IntelliJ IDEA)中运行相同的作业时,输出计数很好(例如 -55)。 但是当使用 spark-submit 在 Yarn 上提交时,只得到几行(行 -12)。 当使用 master - yarn 获取部分行时。 当使用本地时 - 能够读取所有行但得到异常 - Caused by ...
(新到 apache 火花) 我尝试创建一个小型 Scala Spark 应用程序,它读取 excel 文件并将数据插入数据库,但由于库版本不同(我认为),我有一些错误。 Maven配置为: 主.scala 错误是: 仅当我尝试读取 excel 文件时才会发生这种情况,因为我使用 spark-e ...
我正在尝试使用 crealytics/spark-excel 库将不同的 Java 数据集写入一个 excel 文件,该文件将包含多个工作表。 如何为这些单独的 Excel 工作表提供名称? 这是我想要做的: ...
我正在尝试从 PySpark 中的本地路径读取 .xlsx 文件。 我写了下面的代码: 错误: 类型错误:“DataFrameReader”对象不可调用 ...
我需要以 orc 格式在已经创建的配置单元表中加载数据。 即我需要从 excel 表中读取数据,创建数据框,然后以 orc 格式将其加载到 hive 表中。 ...
我必须读取 xlsx 文件的整个目录,并且需要使用 Scala 使用 Apache Spark 加载所有目录。 实际上我正在使用这个依赖: "com.crealytics" %% "spark-excel" % "0.12.3" ,我不知道如何加载所有。 ...
我正在尝试通过 spark 从 COS 读取 excel 文件,像这样 在这段代码中,我首先创建一个空的 dataframe,然后读取所有 excel 文件(通过迭代文件路径)并通过联合操作合并数据。 它抛出这样的错误 sparkExcel 版本为 0.10.2 ...
我正在尝试通过 com.crealytics.spark.excel 读取 excel 文件。 但是我在尝试运行我的代码时遇到以下错误: 这是我的代码: ...
在Scala/Spark应用程序中,我创建了两个不同的 DataFrame。 我的任务是为每个 DataFrame 创建一个带有两张工作表的 excel 文件。 我决定使用spark-excel库,但我有点困惑。 据我了解,未来的excel文件是保存在hdfs文件系统中的吧? 我需要在.save( ...
我有一组 Excel 工作表,我试图通过com.crealytics.spark.excel包通过 spark 读取它们。 在我的 Excel 工作表中,我有一列包含整数 ID 的调查ID。 当我通过 spark 读取数据时,我看到这些值被转换为双精度值。 从 Excel 工作表读取时如何保留整数 ...
我有一个 Excel 文件作为源文件,我想从 Excel 文件中读取数据并使用 Databricks 在 DataFrame 中转换数据。 我是 Scala 的新手。 ...
我正在寻找使用scala从spark中的excel文件构造数据框的方法? 我在下面的SO帖子中提到并尝试对附加的excel表进行操作。 如何从 Scala Spark 中的 Excel (xls,xlsx) 文件构造数据框? 不幸的是,下面修改过的代码没有读取 excel 中的所有列。 ...
我正在使用spark-excel读取 excel 文件,问题是每当我使用带有多行标题的文件时,数据集的 QueryExecution 抛出异常Method threw 'scala.MatchError' exception. Cannot evaluate org.apache.spark.sql ...
我有一个 excel 文件,顶部有损坏的行(前 3 行)需要跳过,我正在使用spark-excel库读取 excel 文件,在他们的 ZBF215181B5140522137B3D4F6B73 上没有这样的功能实现这个? 这是我的代码: ...
我想使用 Spark Session 2.2 从 HDFS 中的 Excel 文件加载数据。 下面是我的 Java 代码和我得到的异常。 我得到了这个例外: java.lang.NoSuchMethodError: org.apache.poi.ss.usermodel.Workbook ...
我一直在使用 Spark-excel ( https://github.com/crealytics/spark-excel ) 将输出写入 Excel 工作表的单个工作表。 但是,我无法将输出写入不同的工作表(标签)。 任何人都可以提出任何替代方案吗? 谢谢,赛 ...
我正在使用spark-excel包来处理使用 spark 2.2 的 ms excel 文件。 某些文件无法作为火花数据框加载,但有以下异常。 如果有人遇到过这个问题,您能帮忙解决此类数据类型问题吗? 分析后我发现如果列名不是字符串,它最终会给出以下异常,如果我手动将列名从整数更改为字符串,它工作 ...