cost 87 ms
无法识别的 Hadoop 主要版本号

[英]Unrecognized Hadoop major version number

我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。 我的问题是在 Spark 实例初始化期间,我收到一条错误消息。 这段代码以前对我有用过很多次,所以我猜依赖项或配置中可能发生了一些变化。 我正在使用 JDK 版本 1.8.0_192 运行,Hadoop ...

如何在命令行中获取作业配置?

[英]How can I get job configuration in command line?

我开始使用这个yarn application -appStates RUNNING运行应用程序,然后我从列表中获得一个applicationID 。 然后我可以通过以下方式获取应用程序的状态: yarn application -status 我想在命令行上获取作业配置信息。 有可能的? ...

Hadoop 中 teragen 创建的文件中的数据是如何构建的?

[英]How data is constructed in files created by teragen in Hadoop?

我试图了解 terasort 的细节。 使用Hadoop 的teragen 后,我可以成功创建输入数据文件。 网上很多文档都说每一行包含的数据格式如下: 因此,我下载了第一个部分文件part-m-00000 ,然后使用以下命令从中删除 rowid:cut -nb 11-20 part-m-0000 ...

为什么我得到 NoClassDefFoundError: org/apache/hadoop/fs/statistics/IOStatisticsSource

[英]Why I am getting NoClassDefFoundError: org/apache/hadoop/fs/statistics/IOStatisticsSource

我正在尝试使用 .NET spark(3.0.1) 和 hadoop (3.2.2) 从 Azure Data Lake gen2(存储帐户)获取数据。 我正在按照Microsoft 教程进行操作,但出现以下错误: java.lang.ClassNotFoundException:Class o ...

新数据节点不从现有 hadoop 集群传输数据

[英]New datanode not tranferring data from existing hadoop cluster

我遵循了 tutriolpoint 指南并完成了将新节点设置到现有 hadoop 集群的每一步。 但是我很难弄清楚为什么没有传输数据。 我完成了检查主机文件和与授权密钥相关的文件,这些文件应该位于正常运行的从属节点中。 数据节点已经包含有关与主节点连接的信息,但不会从主节点传输数据。 当我尝试从新数 ...

如何配置Hive Cli自动获取kerberos ticket并自行更新/请求新的如果过期

[英]How to configure Hive Cli to automatically get the kerberos ticket and renew/request new if expires by it own

您好,我是 Hive 和 kerberos 的新手。 我有一些 hive 的工作,这些工作的运行时间超过了票的生命周期。 我如何配置 hive 以便当我启动 hive shell 如果未缓存票证,它会自动请求票证。 获取票证后假设如果票证在中间过期然后自动获取新的票证并且我可能有同一用户同时运行的作 ...

在 Impala 中删除列

[英]Drop column in Impala

我想在 Impala 中删除整个“索引”列(列名和值): 指数案例ID 客户ID 1个一种 xxx56 我使用了这段代码: 结果是这样的: 案例ID 客户ID 1个一种我该如何解决这个问题? ...

我无法在 Hadoop 3.0.0-cdh6.3.2 上运行 haddop jar

[英]I cannot run a haddop jar on Hadoop 3.0.0-cdh6.3.2

我有一台安装了 Hadoop 3.0.0-cdh6.3.2 的机器。 我跑了这个 并告诉我这个错误: 我设置 有了这个值 我没有更改 yarn-site.xml(已设置 yarn.application.classpath 的值,但如果正确,我不会更改。yarn-site.xml 的值是: 请帮助 ...

Hadoop中Zookeeper的作用

[英]Role of Zookeeper in Hadoop

我根据幻灯片了解到,在 Hadoop 的上下文中,Zookeeper 用于存储 Master 的信息,以及不同任务的状态,哪个工作人员正在哪个分区上工作,并且可用的工作人员也存储在 Zookeeper 中。 为什么这里使用 Zookeeper 来存储这个元数据呢? 可以使用任何数据存储吗? 例如 C ...

HIVe/Hadoop/Spark SQL ACID 转换 - 如何从 table_a 中删除,其中 table_a.id = table_b.id

[英]HIve/Hadoop/Spark SQL ACID Transformations - How to Delete from table_a where table_a.id = table_b.id

SQL 新手尝试使用 Hive 语法和 ACID 转换执行删除操作我有两个增量文件,我已将其作为 Databricks 中的数据帧引入。 表_A 和表_B 这是失败的原因: DELETE FROM Table_A WHERE Table_A.id = Table_B.id 这是我返回的错误Ana ...

直接使用 HDFS 中的数据训练 ML model 的好策略

[英]Good strategy training a ML model directly using data from a HDFS

我想在计算节点上训练一个 model,但使用来自存储集群 (HDFS) 的数据(parquet 格式)。 而且我无法将整个数据集从 HDFS 复制粘贴到我的计算节点上。 什么是可行的解决方案(我使用 python)? 我做了一些研究,似乎Petastorm是一个很有前途的解决方案。 但是,我看到另一 ...

hdfs 未找到基准 TestDFSIO

[英]hdfs benchmark TestDFSIO not found

我正在尝试运行此命令hadoop jar hadoop-*test*.jar TestDFSIO -read -nrFiles 100 -fileSize 80MB -resFile /TestDFSIOwrite.txt但我得到zsh: no matches found: hadoop-*tes ...

使用 TDCH 将数据从 Teradata 导出到 HDFS

[英]Exporting data from Teradata to HDFS using TDCH

我正在尝试使用 TDCH 将 Teradata 中的表导出到我的 hdfs 中的文件中。 我正在使用以下参数: 它工作正常,但我需要文件中的标头,以及添加参数时: 它不起作用,我什至不再生成文件。 任何人都可以帮助我吗? ...

Sqoop 可以在 Oracle RDBMS 表上更新与 Hive 表具有不同列结构的记录吗

[英]Can Sqoop update record on Oracle RDBMS table that have different column structure with Hive table

我是一个 Hadoop 新人,试图将数据从 Hive 导出到 Oracle。Sqoop 可以将数据更新到 Oracle 表吗? Oracle 表格有 A,B,C,D,E 列我将 Hive 表上的数据存储为 B,C,E Sqoop 可以使用 B,C 作为更新密钥导出更新(仅更新,而不是更新插入)并 ...

hadoop 从 hdfs 中现有的存档文件中获取文件

[英]hadoop get files from existing archived file in hdfs

我有一个包含 8 个文件的目录“SmallFiles”,我使用“hadoop archive -archiveName myArch.har -p /Files/SmallFiles /Files”将它们存档,然后删除了原始文件。 我想知道如何再次提取文件? 当我下载它时,我得到这 3 个文件“in ...

pyspark parquet writer保存的文件数

[英]Number of files saved by parquet writer in pyspark

pyspark 镶木地板写入生成多少个文件? 我读到 output 是 memory 分区中的一个文件。 然而,这似乎并不总是正确的。 我正在运行一个 6 执行器集群,每个执行器有 6G 执行器 memory。 所有 rest(pyspark、overhead、offheap)都是 2G 使用以下 ...

将Python中编写的Machine Learning算法集成到Hadoop集群中

[英]Integrate Machine Learning algorithms written in Python into a Hadoop cluster

在创建一个向 Cassandra 数据库提供数据的 Hadoop 集群之后,我想将一些我在 Python 中使用 SciKit-Learn 库编码的机器学习算法集成到 Hadoop 架构中,以便安排何时对存储在中的数据运行这些算法Cassandra 自动。 有谁知道如何进行或任何可以帮助我的参考书目 ...

Flink FlatMapFunction 读取文件的方法

[英]How to Read Files in Flink FlatMapFunction

我正在构建一个 Flink 管道,并且基于实时输入数据需要从 RichFlatMapFunction 中的存档文件中读取记录(例如,我每天都想读取前一天和前一周的文件)。 我想知道最好的方法是什么? 我可以直接使用 Hadoop API,这就是我接下来要尝试的。 那将是这样的:import org. ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM