標簽[hadoop-streaming] - 堆棧內存溢出

如何修復“java.lang.ClassNotFoundException：org.apache.spark.internal.io.cloud.PathOutputCommitProtocol”Pyspark

[英]How to fix "java.lang.ClassNotFoundException: org.apache.spark.internal.io.cloud.PathOutputCommitProtocol" Pyspark

以下是 pycharm 中的運行時版本。我正在嘗試將 pyspark dataframe 寫入 csv，如下所示：並得到錯誤：並且 spark conf 如下：解決此問題的任何幫助表示贊賞。謝謝！！ ...

Hadoop Streaming異常（方案“C”沒有文件系統）

[英]Hadoop Streaming Exception (No FileSystem for Scheme "C")

我是 Hadoop 的新手，並嘗試使用流選項在本地Windows 10上使用Python開發一些作業。在仔細檢查了我給出的路徑，甚至是我的程序之后，我遇到了一個沒有在任何頁面中討論過的異常。異常是：我將不勝感激任何幫助。 ...

計算減速器中的平均溫度

[英]Calculate average temperature in reducer

我正在嘗試編寫一個代碼來根據 ncdc 天氣計算平均溫度 (reducer.py)。 ...

Hadoop Streaming Job 顯示錯誤 /bin/java : No such file or directory

[英]Hadoop Streaming Job showing error /bin/java : No such file or directory

我已經在我的 Macbook M1 2020 中安裝了 Hadoop 和 MacOS Monterey 12.3.1。我能夠在我的筆記本電腦中成功使用 hadoop 和 hdfs 命令。我按照本視頻中的 Ubuntu 教程開始使用 hadoop 流。首先，我打開本地的 hadoop 目錄並 ...

使用 Hadoop map-reduce 並行計算值列表的中值

[英]calculate median of a list of values parallely using Hadoop map-reduce

我是 Hadoop mrjob 的新手。我有一個文本文件，每行包含數據“id groupId 值”。我正在嘗試使用 Hadoop map-reduce 計算文本文件中所有值的中值。但是當只計算中值時我被卡住了。我得到的是每個 id 的中值，例如： output 應該類似於“所有值的中值是： ...

如何在hadoop流中分發Mapreduce任務

[英]How to distribute Mapreduce task in hadoop streaming

例如我有多行日志文件我有 mapper.py。這個腳本做解析文件。在這種情況下，我想獨立地做我的映射器 ...

Hadoop MapReduce function 給出錯誤。流媒體命令失敗

[英]Hadoop MapReduce function is giving an error. Streaming Command Failed

將mapper.py、reducer.py、count_word_data.txt文件保存在C:\BigData\Hadoop-3.2.2目錄下。給出初始命令映射器.py 減速器.py 要運行這些 python 文件，我使用了 Hadoop 命令之后它給了我這個錯誤雖然我已經在系統環境變量中正 ...

Coursera Bigdata Grader 以及如何設置 Hadoop 流式減速器數量？

[英]Coursera Bigdata Grader and how to set Hadoop Streaming number of reducers?

我正在嘗試通過 Coursera 上的課程任務，但在某些單元測試中失敗並出現以下錯誤： RES1_6 描述：第一個作業應該有多個減速器或根本不應該有它們。請在-D mapreduce.job.reduces中設置適當的數字。它可以是 0 或大於 1。但是，我在以下腳本中使用 NUM_RED ...

ValueError：無法在 Python 中同時指定 mapper_raw 和 mapper

[英]ValueError: Can't specify both mapper_raw and mapper in Python

我正在嘗試使用mrjob中的 mrjob 讀取fna文件。這是我的load_read.py程序，所有代碼都可以在不使用mrjob的情況下正常工作。數據文件R4.fna ：當我使用此命令運行程序時：它引發了這個錯誤：你知道如何解決這個問題嗎？ ...

Hadoop 流無法運行 python

[英]Hadoop Streaming can't run python

我正在嘗試使用 python 代碼執行 hadoop 流與 mapreduce 代碼但是，它總是給出相同的錯誤結果， File: file:/C:/py-hadoop/map.py is not readable 或者Error: java.lang.RuntimeException: PipeM ...

從 Python 訪問 Hadoop -- java.io.IOException: 管道已結束

[英]Accessing Hadoop from Python -- java.io.IOException: The pipe has been ended

我正在嘗試使用 hadoop 在 Windows 10 中運行映射器減速器作業。我收到以下錯誤。我到處找，但找不到解決方案。基本上java.io.IOException: The pipe has been ended 我做了什么？添加了shebanger線將-mapper ma ...

使用 python 運行 mapreduce 作業 (MRjob) 時，命令行上出現意外的 arguments 錯誤

[英]Unexpected arguments error appearing on the command line when running mapreduce job (MRjob) using python

我對這個過程相當陌生。我正在嘗試使用 python 3.8 和 csv 在本地 Hadoop 集群（Hadoop 版本 3.2.1）上運行簡單的 map-reduce 作業。我目前在 Windows 10（64 位）上運行它。我試圖做的目的是處理一個 csv 文件，我將在其中得到一個 outp ...

如何在 Hadoop 集群上運行 Hadoop 流式傳輸？

[英]How can I run Hadoop Streaming on Hadoop Cluster?

目前我有一個帶有 3 個節點的 Hadoop 集群（ubuntu）我想用 Hadoop 流運行 python / R 腳本，但我不確定只是執行 HS 是否真的使所有節點都工作如果可能，請指導我在集群上運行 Streaming 謝謝 ...

Spark 1.6：將數據幀存儲到 hdfs 中的多個 csv 文件中（按 ID 分區）

[英]Spark 1.6: Store dataframe into multiple csv file in hdfs (partition by id)

我正在嘗試通過 id 將數據幀保存到 csv 分區中，為此我使用的是 spark 1.6 和 scala。函數 partitionBy("id") 沒有給我正確的結果。我的代碼在這里：此代碼不基於列 ID 創建 3 個 csv 默認分區（part_0、part_1、part_2）。我 ...

如何從 hive 獲取最新的分區數據

[英]How to getting latest partition data from hive

我需要從具有最新分區的配置單元中的表中獲取所有記錄。該表按date,year,month分區date,year,month例如(date=25,year=2020,month=3) ，同樣會有很多分區。分區不是靜態的，它會經常變化。我正在嘗試處理獲取查詢中的最新分區。有人可以幫我寫查詢嗎？ ...

流命令失敗！在 CentOS7 上的單節點 hadoop 集群設置中執行 MapReduce python 代碼時

[英]Streaming Command Failed! when execute MapReduce python code in single node hadoop cluster setup on CentOS7

我已經在同一台機器上成功執行了 mapreduce java 代碼。現在我正在嘗試在同一台機器上執行用 python 編寫的 Mapreduce 代碼。為此，我使用了 hadoop_3.2.1 和 hadoop-streaming-3.2.1.jar。我已經通過命令測試了代碼 [dsawal ...

如何從spark中的多個雲存儲桶中讀取TXT文件？

[英]How to read TXT fiels from multiple cloud storage buckets in spark?

我想列出雲存儲中與gs://bucketname*匹配的所有存儲桶。我試過使用 gsutil，它可以工作，但同樣不能從 spark read 或 readstream 工作。 gs://bucket1 gs://bucket2 gs://bucketN 工作： gsutil ls gs:// ...

如何在 Windows 10 中的 cmd shell 上的筆記本電腦上本地運行 mapreduce 程序

[英]How to Run mapreduce Program locally on laptop on cmd shell in windows 10

我正在嘗試在安裝了 hadoop 2.8 版本的筆記本電腦上運行本地 MapReduce 程序。我很困惑如何在 Cmd shell 中使用下面的命令。這是我的命令，也共享映射器和減速器代碼。和我在 CSV 文件中的數據。 ...

oozie java.io.IOException: 方案沒有文件系統：hdfs

[英]oozie java.io.IOException: No FileSystem for scheme: hdfs

我已經使用 Hadoop 2.7.3 設置了 oozie 4.3.1。 oozie 已成功設置並運行，並且能夠看到 Web 控制台http://localhost:11000/oozie/並使用 oozie status 命令進行確認。問題 1：在更改帶有相關詳細信息的 job.proper ...

使用 python 代碼在 mapreduce 中沒有得到我的預期輸出

[英]Not getting my expected output in mapreduce using python code

運行此代碼以獲取 Hadoop 集群中的概率，我在 CSV 文件中的數據約為 10k+。我正在使用 Google DataProc Cluster 來運行此代碼。請告訴我如何獲得預期的輸出。最后一件事可能是邏輯問題或某些功能問題。我的 CSV 文件看起來像這樣。我將這個命令保存 ...