![](/img/trans.png)
[英]How to write output of Apache Crunch to Amazon S3 bucket
有沒有一種方法可以將我們的 Apache Crunch output 寫入 S3 存儲桶。 在 crunch pipeline write 中有一個方法,它以 Target 作為參數。 有沒有辦法將 S3 添加為目標來編寫 crunch 方法。 ...
[英]How to write output of Apache Crunch to Amazon S3 bucket
有沒有一種方法可以將我們的 Apache Crunch output 寫入 S3 存儲桶。 在 crunch pipeline write 中有一個方法,它以 Target 作為參數。 有沒有辦法將 S3 添加為目標來編寫 crunch 方法。 ...
[英]write a apache crunch Pcollection to multiple output files
我有一個緊縮的 dofn 生成一個 Pcollection,當前我將 pcollection 寫入單個 avro 文件我想將 Pcollection 寫入多個文件。 ...
[英]Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)
*在運行 apache crunch mapreduce pipleline 時,應該在 kerebro 中提供哪些憑據來解決此異常? 通過 kinit 命令登錄后沒有區別。 * 日志如下: ...
[英]How to execute one particular workflow action in Oozie. If I killed Oozie workflow manually?
我有以下 Oozie 工作流程,假設我在執行“Do_task1”操作時手動終止了該作業,但盡管手動終止了 oozie 作業(當操作“Do_task1”正在運行時),我仍然想執行操作“Do_task2”。 我怎樣才能做到這一點? ...
[英]Hadoop java.lang.RuntimeException: java.lang.NoSuchMethodException
我正在使用Apache Crunch編寫一些map-reduce代碼。 我有一個以下類,其中包含一些在map-reduce代碼中傳遞的數據,但是我遇到了一個異常-不知道為什么。 這是類接口 這是類的實現本身。(我這里有一個默認的空構造函數。) 這是我在地圖階段得到的例外。 ...
[英]Apache crunch unable to write output
可能是疏忽大意,但我無法找出為什么Apache Crunch不會為我正在編寫的用於學習Crunch的非常簡單的程序將輸出寫到文件中的原因。 這是代碼: 這是我使用hadoop執行此jar時看到的日志記錄: 輸入文件非常簡單,看起來像這樣: 盡管日志記錄表明應該對輸出 ...
[英]Apache Crunch: How to set multiple input paths?
我有一個問題:使用Apache Crunch時無法設置多個輸入路徑。 我怎么解決這個問題? ...
[英]What happens when calling Apache Crunch pipeline read twice on two different sources?
進行以下呼叫時: 根據Apache Crunch閱讀文檔,用於從兩個來源讀取數據然后將數據連接在一起的管道是否相同? ...
[英]How to run Apache Crunch application without a Hadoop?
我聽說Apache Crunch是一個外觀,它可以在沒有Hadoop的情況下運行應用程序。 這是真的? 如果是,那該怎么做? 在Apache Crunch入門中 ,第一個示例包含hadoop命令: 可以省略hadoop嗎? ...
[英]Could not find or load main class while trying to run project from IntelliJ
我已經下載了項目 然后將其作為Maven現有項目導入到IntelliJ中。 現在我正在嘗試運行main功能,但失敗並顯示錯誤消息 這是什么以及如何解決? UPDATE 如果我從頭開始創建新的Hello World Maven項目,那么它將起作用。 更新2 ...
[英]How could I define the DoFn in apache crunch having “void” data type?
基本上,我不需要DoFn的輸出,只想為我在DoFn中獲得的每條記錄更新一些mysql數據庫。 那么如何定義具有無效數據類型的DoFn? 基本上我不想從DoFn發出任何東西。 ...
[英]Iterating over PTable in crunch
我有以下PTable, 對於上述somePTable2,我想為somePTable2中的每個記錄創建一個新文件,是否有任何方法可以迭代somePTable2以使我可以訪問該記錄。我知道我可以在somePTable2上應用DoFn,但是可以應用DoFn中的pipeline.write()操 ...
[英]Is there a generic way of converting PCollection to PTable in Apache Crunch?
我在util類中有這些方法,它們將特定的PCollection轉換為特定的PTable。 如何實現上述方法的一種通用方法? ...
[英]Link crunch spark pipeline with spark application beginning with SparkSession instance
Crunch管道可以將Java spark context作為參數,但是如果spark應用程序以SparkSession實例啟動(因為spark Java程序包含Datasets並且需要sparkSQL)。 在這種情況下,如何在spark應用程序中添加另一層抽象(crunch管道)? ...
[英]java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/mapreduce/MultiTableInputFormat
在Hadoop minicluster上運行mapReduce作業測試時,出現錯誤: java.lang.NoClassDefFoundError:org.apache.crunch.io.hbase.HBaseSourceTarget。(HBaseSourceTarget.java: ...
[英]java.lang.UnsatisfiedLinkError when writing using crunch MemPipeline
我正在使用com.cloudera.crunch版本:“ 0.3.0-3-cdh-5.2.1”。 我有一個小程序,可以讀取一些AVRO並根據某些條件過濾掉無效數據。 我正在使用pipeline.write(PCollection,AvroFileTarget)寫入無效的數據輸出。 在生 ...
[英]How does Apache Crunch PTable collectValues work internally
我正在瀏覽一些與HDFS架構和Apache緊縮PTable相關的文檔。 根據我的理解,當我們生成PTable時,數據將內部存儲在HDFS中的Data節點之間。 這意味着,如果我有帶有<K1,V1>,<K2,V2>,<K1,V3>,<K3,V4&g ...
[英]Hadoop Job: Error injecting constructor, JAXBException
在Apache Crunch管道中實現的MapReduce作業失敗,並顯示錯誤消息Error injecting constructor, javax.xml.bind.JAXBException: property "retainReferenceToInfo" is not supporte ...
[英]How to convert existing MapReduce applications to Crunch?
我實現了幾個(大約一打)MapReduce任務,每個任務都是由一個簡單的bash腳本執行的工作流的一部分。 由於多種原因,我想將工作流程移至Apache Crunch。 但是,我不清楚如何將我的MapReduce任務作為Crunch函數運行而不重新實現它們。 有沒有一種直接的方法可以將 ...
[英]which job map reduce can do but apache crunch can't?
我正在研究 apache 緊縮。 據我所知,crunch 是一個基於 map-reduce 框架的抽象框架。 我打算使用 crunch 而不是 map-reduce 框架。 我的問題是 map-reduce 可以做什么而 crunch 不能? ...