由以下原因導致：java.lang.ClassNotFoundException：eclipse中的org.apache.hadoop.fs.CanSetDropBehind問題

Question

我有以下火花字數統計程序：

    package com.sample.spark;
    import java.util.Arrays;
    import java.util.List;
    import java.util.Map;
    import org.apache.spark.SparkConf;
    import org.apache.spark.api.java.*;
    import org.apache.spark.api.java.function.FlatMapFunction;
    import org.apache.spark.api.java.function.Function;
    import org.apache.spark.api.java.function.Function2;
    import org.apache.spark.api.java.function.PairFlatMapFunction;
    import org.apache.spark.api.java.function.PairFunction;
    import org.apache.hadoop.fs.FSDataInputStream;
    import org.apache.hadoop.fs.FSDataOutputStream;
    import scala.Tuple2;


    public class SparkWordCount {

        public static void main(String[] args) {
            SparkConf conf = new SparkConf().setAppName("wordcountspark").setMaster("local").setSparkHome("/Users/hadoop/spark-1.4.0-bin-hadoop1");
            JavaSparkContext sc = new JavaSparkContext(conf);
            //SparkConf conf = new SparkConf();
            //JavaSparkContext sc = new JavaSparkContext("hdfs", "Simple App","/Users/hadoop/spark-1.4.0-bin-hadoop1", new String[]{"target/simple-project-1.0.jar"});
            JavaRDD<String> textFile = sc.textFile("hdfs://localhost:54310/data/wordcount");
            JavaRDD<String> words = textFile.flatMap(new FlatMapFunction<String, String>() {
              public Iterable<String> call(String s) { return Arrays.asList(s.split(" ")); }
            });
            JavaPairRDD<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
                public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }

            });

            JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
                  public Integer call(Integer a, Integer b) { return a + b; }
                });  
            counts.saveAsTextFile("hdfs://localhost:54310/data/output/spark/outfile");

        }


    }

當我從ecllipse運行代碼時，我得到了原因：java.lang.ClassNotFoundException：org.apache.hadoop.fs.CanSetDropBehind異常，但是如果我導出為可運行的jar並從終端運行，如下所示：

      bin/spark-submit --class com.sample.spark.SparkWordCount --master local  /Users/hadoop/spark-1.4.0-bin-hadoop1/finalJars/SparkJar-v2.jar

Maven pom看起來像：

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
        xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.sample.spark</groupId>
        <artifactId>SparkRags</artifactId>
        <packaging>jar</packaging>
        <version>1.0-SNAPSHOT</version>
        <name>SparkRags</name>
        <url>http://maven.apache.org</url>
        <dependencies>
            <dependency>
                <groupId>junit</groupId>
                <artifactId>junit</artifactId>
                <version>3.8.1</version>
                <scope>test</scope>
            </dependency>
            <dependency> <!-- Spark dependency -->
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-core_2.10</artifactId>
                <version>1.4.0</version>
                <scope>compile</scope>
            </dependency>
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-common</artifactId>
                <version>0.23.11</version>
                <scope>compile</scope>
            </dependency>
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-core</artifactId>
                <version>1.2.1</version>
                <scope>compile</scope>
            </dependency>
    </dependencies>
    </project>

Answer 1

在eclipse中運行時，引用的jar是程序運行的唯一來源。 因此，由於某些原因，無法將jar hadoop-core（存在CanSetDropBehind的位置）正確地添加到本地存儲庫中的日食中。 如果是代理問題或其他與pom有關的問題，則需要標識此問題。

從終端運行jar時，運行的原因可能是由於所引用的類路徑中存在jar。 同樣，從終端運行時，您也可以選擇將這些罐子作為肥罐（包括hadoop-core）放入罐子中。 希望您在創建jar時不要使用此選項。 然后，可以從您的jar內部選擇引用，而不必依賴於類路徑。

驗證每個步驟，它將幫助您確定原因。 快樂編碼

Answer 2

發現這是由於版本0.23.11的hadoop通用jar沒有該類導致的，將版本更改為2.7.0並還添加了以下依賴項：

    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>2.7.0</version>
    </dependency>

然后擺脫了錯誤，但仍然看到以下錯誤：

線程“主”中的異常java.io.EOFException：本地主機之間的文件末尾異常是：“ mbr-xxxx.local / 127.0.0.1”； 目標主機是：“ localhost”：54310; ：java.io.EOFException; 有關更多詳細信息，請參見： http : //wiki.apache.org/hadoop/EOFException

由以下原因導致：java.lang.ClassNotFoundException：eclipse中的org.apache.hadoop.fs.CanSetDropBehind問題

問題描述

2 個解決方案

解決方案1
1 已采納 2015-06-20 18:07:32

解決方案2
1 2015-06-23 23:22:12

由以下原因導致：java.lang.ClassNotFoundException：eclipse中的org.apache.hadoop.fs.CanSetDropBehind問題

問題描述

2 個解決方案

解決方案1 1 已采納 2015-06-20 18:07:32

解決方案2 1 2015-06-23 23:22:12

解決方案1
1 已采納 2015-06-20 18:07:32

解決方案2
1 2015-06-23 23:22:12