
[英]Unrecognized Hadoop major version number
我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。 我的问题是在 Spark 实例初始化期间,我收到一条错误消息。 这段代码以前对我有用过很多次,所以我猜依赖项或配置中可能发生了一些变化。 我正在使用 JDK 版本 1.8.0_192 运行,Hadoop ...
[英]Unrecognized Hadoop major version number
我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。 我的问题是在 Spark 实例初始化期间,我收到一条错误消息。 这段代码以前对我有用过很多次,所以我猜依赖项或配置中可能发生了一些变化。 我正在使用 JDK 版本 1.8.0_192 运行,Hadoop ...
[英]How can I get job configuration in command line?
我开始使用这个yarn application -appStates RUNNING运行应用程序,然后我从列表中获得一个applicationID 。 然后我可以通过以下方式获取应用程序的状态: yarn application -status 我想在命令行上获取作业配置信息。 有可能的? ...
[英]How data is constructed in files created by teragen in Hadoop?
我试图了解 terasort 的细节。 使用Hadoop 的teragen 后,我可以成功创建输入数据文件。 网上很多文档都说每一行包含的数据格式如下: 因此,我下载了第一个部分文件part-m-00000 ,然后使用以下命令从中删除 rowid:cut -nb 11-20 part-m-0000 ...
[英]Why I am getting NoClassDefFoundError: org/apache/hadoop/fs/statistics/IOStatisticsSource
我正在尝试使用 .NET spark(3.0.1) 和 hadoop (3.2.2) 从 Azure Data Lake gen2(存储帐户)获取数据。 我正在按照Microsoft 教程进行操作,但出现以下错误: java.lang.ClassNotFoundException:Class o ...
[英]New datanode not tranferring data from existing hadoop cluster
我遵循了 tutriolpoint 指南并完成了将新节点设置到现有 hadoop 集群的每一步。 但是我很难弄清楚为什么没有传输数据。 我完成了检查主机文件和与授权密钥相关的文件,这些文件应该位于正常运行的从属节点中。 数据节点已经包含有关与主节点连接的信息,但不会从主节点传输数据。 当我尝试从新数 ...
[英]How to configure Hive Cli to automatically get the kerberos ticket and renew/request new if expires by it own
您好,我是 Hive 和 kerberos 的新手。 我有一些 hive 的工作,这些工作的运行时间超过了票的生命周期。 我如何配置 hive 以便当我启动 hive shell 如果未缓存票证,它会自动请求票证。 获取票证后假设如果票证在中间过期然后自动获取新的票证并且我可能有同一用户同时运行的作 ...
[英]Drop column in Impala
我想在 Impala 中删除整个“索引”列(列名和值): 指数案例ID 客户ID 1个一种 xxx56 我使用了这段代码: 结果是这样的: 案例ID 客户ID 1个一种我该如何解决这个问题? ...
[英]I cannot run a haddop jar on Hadoop 3.0.0-cdh6.3.2
我有一台安装了 Hadoop 3.0.0-cdh6.3.2 的机器。 我跑了这个 并告诉我这个错误: 我设置 有了这个值 我没有更改 yarn-site.xml(已设置 yarn.application.classpath 的值,但如果正确,我不会更改。yarn-site.xml 的值是: 请帮助 ...
[英]Role of Zookeeper in Hadoop
我根据幻灯片了解到,在 Hadoop 的上下文中,Zookeeper 用于存储 Master 的信息,以及不同任务的状态,哪个工作人员正在哪个分区上工作,并且可用的工作人员也存储在 Zookeeper 中。 为什么这里使用 Zookeeper 来存储这个元数据呢? 可以使用任何数据存储吗? 例如 C ...
[英]HIve/Hadoop/Spark SQL ACID Transformations - How to Delete from table_a where table_a.id = table_b.id
SQL 新手尝试使用 Hive 语法和 ACID 转换执行删除操作我有两个增量文件,我已将其作为 Databricks 中的数据帧引入。 表_A 和表_B 这是失败的原因: DELETE FROM Table_A WHERE Table_A.id = Table_B.id 这是我返回的错误Ana ...
[英]Good strategy training a ML model directly using data from a HDFS
我想在计算节点上训练一个 model,但使用来自存储集群 (HDFS) 的数据(parquet 格式)。 而且我无法将整个数据集从 HDFS 复制粘贴到我的计算节点上。 什么是可行的解决方案(我使用 python)? 我做了一些研究,似乎Petastorm是一个很有前途的解决方案。 但是,我看到另一 ...
[英]hdfs benchmark TestDFSIO not found
我正在尝试运行此命令hadoop jar hadoop-*test*.jar TestDFSIO -read -nrFiles 100 -fileSize 80MB -resFile /TestDFSIOwrite.txt但我得到zsh: no matches found: hadoop-*tes ...
[英]Exporting data from Teradata to HDFS using TDCH
我正在尝试使用 TDCH 将 Teradata 中的表导出到我的 hdfs 中的文件中。 我正在使用以下参数: 它工作正常,但我需要文件中的标头,以及添加参数时: 它不起作用,我什至不再生成文件。 任何人都可以帮助我吗? ...
[英]Can Sqoop update record on Oracle RDBMS table that have different column structure with Hive table
我是一个 Hadoop 新人,试图将数据从 Hive 导出到 Oracle。Sqoop 可以将数据更新到 Oracle 表吗? Oracle 表格有 A,B,C,D,E 列我将 Hive 表上的数据存储为 B,C,E Sqoop 可以使用 B,C 作为更新密钥导出更新(仅更新,而不是更新插入)并 ...
[英]hadoop get files from existing archived file in hdfs
我有一个包含 8 个文件的目录“SmallFiles”,我使用“hadoop archive -archiveName myArch.har -p /Files/SmallFiles /Files”将它们存档,然后删除了原始文件。 我想知道如何再次提取文件? 当我下载它时,我得到这 3 个文件“in ...
[英]I can't run start-dfs.sh in my Hadoop Grid5000 cluster (Permission denied)
我可以使用 ssh 连接从一个节点导航到另一个节点,没有任何问题,例如从 parasilo-1 到 parasilo-10。 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys不幸的是没有任何改变。 我在 SSH 中连接到我在 Grid50 ...
[英]Number of files saved by parquet writer in pyspark
pyspark 镶木地板写入生成多少个文件? 我读到 output 是 memory 分区中的一个文件。 然而,这似乎并不总是正确的。 我正在运行一个 6 执行器集群,每个执行器有 6G 执行器 memory。 所有 rest(pyspark、overhead、offheap)都是 2G 使用以下 ...
[英]Integrate Machine Learning algorithms written in Python into a Hadoop cluster
在创建一个向 Cassandra 数据库提供数据的 Hadoop 集群之后,我想将一些我在 Python 中使用 SciKit-Learn 库编码的机器学习算法集成到 Hadoop 架构中,以便安排何时对存储在中的数据运行这些算法Cassandra 自动。 有谁知道如何进行或任何可以帮助我的参考书目 ...
[英]How to Read Files in Flink FlatMapFunction
我正在构建一个 Flink 管道,并且基于实时输入数据需要从 RichFlatMapFunction 中的存档文件中读取记录(例如,我每天都想读取前一天和前一周的文件)。 我想知道最好的方法是什么? 我可以直接使用 Hadoop API,这就是我接下来要尝试的。 那将是这样的:import org. ...
[英]Cannot open a video with OpenCV VideoCapture on HDFS (Hadoop) | Java
我正在尝试使用存储在 HDFS 上的 OpenCv VideoCapture 打开视频文件。这是使用 Hadoop RecordReader 的情况,我可以找到该文件,但在 VideoCapture 中不起作用。 对解决这个问题有帮助吗? MyRecordReader.java Output: ...