簡體 English 中英

在flink YARN集群作業中使用JNI

[英]Using JNI in flink YARN cluster jobs

原文 2016-07-08 13:23:28 6 1 java/ scala/ hadoop/ apache-flink

我有一個應用程序通過RemoteExecutionEnvironment scala API將Apache Flink作業分派給AWS Elastic MapReduce YARN集群。

這些作業使用JNI通過C庫運行部分計算。 在開發過程中，我只是在RichCrossFunction的open()方法中調用System.loadLibrary()來加載這個JNI庫。 這在LocalExecutionEnvironment運行良好。

現在我正在轉向RemoteExecutionEnvironment這似乎不再起作用。 看起來Flink每次調度作業時都使用新的ClassLoader並且我在Native library already loaded in another classloader了計算節點上的Native library already loaded in another classloader錯誤。

一些谷歌搜索通知我，這是Tomcat應用程序的常見問題，Tomcat FAQ中提供了一個解決方案： http ： //wiki.apache.org/tomcat/HowTo#I.27m_encountering_classloader_problems_when_using_JNI_under_Tomcat

Flink或YARN是否有類似的解決方案？

此外，是否可以避免每次作業排隊時重新提交JAR？ 我總是在這個集群上使用相同的jar，所以這是不必要的開銷......

1 個解決方案

我通過在我的JNI jar中的靜態初始化程序中調用loadLibrary ，然后將我的JNI jar放在Flink的/lib文件夾中來修復該問題，類似於上面Tomcat鏈接中的模式。

它通過yarn-session.sh啟動過程自動復制到Flink TaskManagers。 這使我能夠以與使用Tomcat相同的方式規避ClassLoader隔離。

我正在使用Maven，因此我使用maven-shade-plugin防止JNI jar被包含在我的uberjar中。

我仍然不知道這是否是最好的方法，因為flink手冊不鼓勵使用/lib文件夾，因為它不尊重他們的ClassLoader管理（ https://ci.apache.org/projects/flink/flink-docs -release-1.0 / apis / cluster_execution.html ），但這正是我想要的。

也許另一種方法是使用NativeLoader模式並為每個ClassLoader創建一個單獨的臨時文件，但這會創建一堆重復的本機庫，這種方法適合我。

flink-群集未使用群集

[英]flink - cluster not using cluster

在本地模式和紗線群集上運行Flink的結果不同

[英]Different result on running Flink in local mode and Yarn cluster

通過flink yarn集群上的maven運行帶有隨附配置的Java Jar

[英]Running Java Jar with included config via maven on flink yarn cluster

遠程 flink 作業查詢 Hive 上的紗線集群錯誤：NoClassDefFoundError: org/apache/hadoop/mapred/JobConf

[英]remote flink job with query to Hive on yarn-cluster error:NoClassDefFoundError: org/apache/hadoop/mapred/JobConf

如果在類內未創建火花會話，則在紗線群集模式下，火花作業的最終狀態將失敗

[英]Spark Jobs final status is failed in yarn-cluster mode if no spark session is created inside the class

使用RestClusterClient在Flink群集上運行已部署的作業

[英]Run already deployed job on Flink Cluster using RestClusterClient

FLINK：如何使用相同的StreamExecutionEnvironment從多個kafka集群中讀取

[英]FLINK: How to read from multiple kafka cluster using same StreamExecutionEnvironment

如何使用 Java 代碼向 Flink 集群提交作業？

[英]How do I submit a job to a Flink cluster using Java code?

是否可以使用Java檢查hadoop集群是否啟用了yarn？

[英]Is it possible to check whether hadoop cluster is yarn enabled using java?

EKS 上的 Flink 集群

[英]Flink cluster on EKS

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 flink-群集未使用群集在本地模式和紗線群集上運行Flink的結果不同通過flink yarn集群上的maven運行帶有隨附配置的Java Jar 遠程 flink 作業查詢 Hive 上的紗線集群錯誤：NoClassDefFoundError: org/apache/hadoop/mapred/JobConf 如果在類內未創建火花會話，則在紗線群集模式下，火花作業的最終狀態將失敗使用RestClusterClient在Flink群集上運行已部署的作業 FLINK：如何使用相同的StreamExecutionEnvironment從多個kafka集群中讀取如何使用 Java 代碼向 Flink 集群提交作業？是否可以使用Java檢查hadoop集群是否啟用了yarn？ EKS 上的 Flink 集群

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM