在Hadoop /層疊中從FTP服務器讀取數據

Question

我想從FTP服務器讀取數據，我以ftp：// Username：Password @ host / path的格式提供位於FTP服務器上的文件的路徑。 當我使用map reduce程序從文件讀取數據時，它可以正常工作。 我想通過Cascading框架從同一文件讀取數據。 我正在使用Hfs級聯框架的水龍頭來讀取數據。 它引發以下異常

java.io.IOException: Stream closed
    at org.apache.hadoop.fs.ftp.FTPInputStream.close(FTPInputStream.java:98)
    at java.io.FilterInputStream.close(Unknown Source)
    at org.apache.hadoop.util.LineReader.close(LineReader.java:83)
    at org.apache.hadoop.mapred.LineRecordReader.close(LineRecordReader.java:168)
    at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.close(MapTask.java:254)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:440)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:212)

下面是我從中讀取文件的級聯框架的代碼：

public class FTPWithHadoopDemo {
    public static void main(String args[]) {
        Tap source = new Hfs(new TextLine(new Fields("line")), "ftp://user:pwd@xx.xx.xx.xx//input1");
        Tap sink = new Hfs(new TextLine(new Fields("line1")), "OP\\op", SinkMode.REPLACE);
        Pipe pipe = new Pipe("First");
        pipe = new Each(pipe, new RegexSplitGenerator("\\s+"));
        pipe = new GroupBy(pipe);
        Pipe tailpipe = new Every(pipe, new Count());
        FlowDef flowDef = FlowDef.flowDef().addSource(pipe, source).addTailSink(tailpipe, sink);
        new HadoopFlowConnector().connect(flowDef).complete();
    }
}

我試圖在Hadoop源代碼中查找相同的異常。 我發現在MapTask類中，有一個方法runOldMapper處理流。 並且在同一方法中，流最終被關閉的最后一個塊（in.close（）） 。 當我從finally塊中刪除該行時，它工作正常。 下面是代碼：

private <INKEY, INVALUE, OUTKEY, OUTVALUE> void runOldMapper(final JobConf job, final TaskSplitIndex splitIndex,
            final TaskUmbilicalProtocol umbilical, TaskReporter reporter)
                    throws IOException, InterruptedException, ClassNotFoundException {
        InputSplit inputSplit = getSplitDetails(new Path(splitIndex.getSplitLocation()), splitIndex.getStartOffset());

        updateJobWithSplit(job, inputSplit);
        reporter.setInputSplit(inputSplit);

        RecordReader<INKEY, INVALUE> in = isSkipping()
                ? new SkippingRecordReader<INKEY, INVALUE>(inputSplit, umbilical, reporter)
                : new TrackedRecordReader<INKEY, INVALUE>(inputSplit, job, reporter);
        job.setBoolean("mapred.skip.on", isSkipping());

        int numReduceTasks = conf.getNumReduceTasks();
        LOG.info("numReduceTasks: " + numReduceTasks);
        MapOutputCollector collector = null;
        if (numReduceTasks > 0) {
            collector = new MapOutputBuffer(umbilical, job, reporter);
        } else {
            collector = new DirectMapOutputCollector(umbilical, job, reporter);
        }
        MapRunnable<INKEY, INVALUE, OUTKEY, OUTVALUE> runner = ReflectionUtils.newInstance(job.getMapRunnerClass(),
                job);

        try {
            runner.run(in, new OldOutputCollector(collector, conf), reporter);
            collector.flush();
        } finally {
            // close
            in.close(); // close input
            collector.close();
        }
    }

請協助我解決這個問題。

謝謝，阿爾沙達利

Answer 1

經過一些努力，我發現hadoop使用org.apache.hadoop.fs.ftp.FTPFileSystem類作為FTP。
此類不支持查找，即從文件開始處查找到給定的偏移量。 在一個塊中讀取數據，然后文件系統尋求下一個塊進行讀取。 FTPFileSystem默認塊大小為4KB。 由於不支持搜尋，因此它只能讀取小於或等於4KB的數據。

在Hadoop /層疊中從FTP服務器讀取數據

問題描述

1 個解決方案

解決方案1
0 已采納 2016-04-20 05:57:12

在Hadoop /層疊中從FTP服務器讀取數據

問題描述

1 個解決方案

解決方案1 0 已采納 2016-04-20 05:57:12

解決方案1
0 已采納 2016-04-20 05:57:12