标签[recordreader] - 堆栈内存溢出

使用 dl4j 的图像到图像 DataSetIterator - Image to image DataSetIterator using dl4j

我想使用 DeepLearning4j 来构建和训练 U-Net 网络。为此，我需要一个数据集迭代器，该迭代器为网络提供输入图像和输出图像。我是 DL4j 的新手，我发现的所有示例都解释了如何为图像分类构建数据集。据我所知，我需要用我的文件实例化一个 ImageRecordReader，然 ...

如何使用Datavec读取简单的CSV文件 - How to read a simple CSV file with Datavec

我想使用Datavec读取仅包含数字列表的简单CSV文件，以在Deeplearning4j中使用。我已经尝试了许多示例，但始终会出错。例如，当我执行此：我收到此错误：将'labelIndex'从0更改为1会产生相同的错误。文件中的数据如下所示：如何读 ...

MapReduce基础 - MapReduce basics

我有一个300mb的文本文件，块大小为128mb。因此总共将创建3个块128 + 128 + 44 mb。纠正我-对于map减少，默认输入分割与可配置的128mb块大小相同。现在，记录读取器将读取每个拆分并创建键值对（键是偏移量，值是单行）。（TextInputFormat）问题 ...

如何从Hadoop中的序列文件创建拆分？ - How to create splits from a sequence file in Hadoop?

在Hadoop中，我有一个3GB大小的序列文件。我想并行处理。因此，我将创建8个maptask和8个FileSplits。 FileSplit类的构造函数要求：例如，fisrt拆分可以从0开始，长度为3GB / 8，下一个拆分为3GB / 8，长度为3GB / 8，依此类 ...

Hadoop 2：使用自定义InputFormat时，结果为空 - Hadoop 2: Empty result when using custom InputFormat

我想使用一个带有自定义RecordReader的FileInputFormat来将csv数据读取为<Long><String>对。因此，我创建了类MyTextInputFormat ：和类MyStringRecordReader ：在我的Spa ...

如何使Hadoop MR只读取文件而不是输入路径中的文件夹 - How to make Hadoop MR to read only files instead of folders in input path

根据我们的要求，一份工作的输出将是其他工作的输入。通过使用多输出概念，我们在输出路径中创建一个新文件夹并将这些记录写入文件夹。这是它的样子：当新作业将输入用作OPFolder1时，我面临以下错误是否有任何方法或属性，使hadoop，只读文件而不是文件夹。 ...

如何使用Hadoop Mapreduce将EBCDIC转换为TEXT - How do I convert EBCDIC to TEXT using Hadoop Mapreduce

我需要解析EBCDIC输入文件格式。使用Java，我可以像下面这样阅读：但是在Hadoop Mapreduce中，我需要通过RecordReader进行解析，而该记录到目前为止还没有奏效。有人可以提供解决此问题的方法吗？ ...

记录读取器的概念 - Concept of RecordReaders

我们知道，在Mapper阶段之前，文件已被拆分，并且RecordReader开始工作以向Mapper发出输入。我的问题是reducer是否使用RecordReader类读取映射器发出的数据？因为减速机也需要输入！请解释！！！ ...

带有压缩/加密文件（大文件）的Hadoop Mapreduce - Hadoop Mapreduce with compressed/encrypted files (file of large size)

我有hdfs集群，该集群以最终用户选择的压缩/加密形式存储大型csv文件。对于压缩，加密，我创建了一个包装器输入流，以压缩/加密形式将数据馈送到HDFS。压缩格式使用GZ，加密格式使用AES256。 HDFS上将4.4GB的csv文件压缩为40MB。现在我有了mapreduce ...

将参数传递给mapreduce hadoop中的记录读取器 - passing arguments to record reader in mapreduce hadoop

这是我使用variours arg的代码 import java.io.File; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSD ...

Hadoop自定义记录读取器实现 - Hadoop custom record reader implementation

我很难理解以下链接中介绍的nextKeyValue（）方法的流程： http://analyticspro.org/2012/08/01/wordcount-with-custom-record-reader-of-textinputformat/ 特别是nextKeyValue（） ...

hadoop RecordReader如何识别记录 - How does hadoop RecordReader identify records

处理文本文件时hadoop如何识别记录？是基于换行符还是句号？如果我有一个5000字的文本文件列表，它们全部用单行隔开，用空格隔开；没有换行符，逗号或句号。 RecordReader的表现如何？例如abc pqr xyz lmn qwe rew poio kjkh as ...

Hadoop MapReduce RecordReader实现是否必要？ - Hadoop MapReduce RecordReader Implementation Necessary?

来自Hadoop MapReduce InputFormat接口上的Apache doc： “ [L]基于输入大小的逻辑分割对于许多应用来说是不够的，因为要遵守记录边界。在这种情况下，应用程序还必须实现一个RecordReader ，负责尊重记录边界并提供记录。面向单个任务的逻辑In ...

mapper run（）方法如何处理最后一条记录？ - How does mapper run() method process the last record?

在上面的代码段中，当调用映射器的run方法时，每次它通过recordreader的nextkeyvalue（）函数获取下一个键值对，并处理当前的键值对。因此，在那种情况下，如果我们正在处理特定输入拆分的最后一条记录，那么nextkeyvalue（）函数将返回false，并且在每个输入拆分中 ...

读取由于MapReduce中的/ n分为两行的记录 - Reading a record broken down into two lines because of /n in MapReduce

我正在尝试编写一个自定义阅读器，该阅读器可用于读取具有定义的字段数的记录（位于两行中）。例如我的要求是读取记录并将其作为单个记录（例如{1,2,3,4,5,6,7,8}推入映射器。请提供一些意见。更新： } 这是我正在尝试的nextKeyValue方法 ...

杰克逊jsonparser重新启动破碎的JSON解析 - jackson jsonparser restart parsing in broken JSON

我正在使用Jackson来处理Hadoop中成块出现的JSON。这意味着，它们是按块分割的大文件（在我的问题上是128M，但这并不重要）。出于效率原因，我需要它进行流式传输（无法在内存中构建整个树）。我正在混合使用JsonParser和ObjectMapper从我的输入中读取。 ...

Hadoop + Jackson解析：ObjectMapper读取对象，然后中断 - Hadoop + Jackson parsing: ObjectMapper reads Object and then breaks

我正在与Jackson一起在Hadoop中实现JSON RecordReader。现在，我正在使用JUnit + MRUnit在本地进行测试。 JSON文件每个都包含一个对象，该对象在某些标头之后具有一个字段，其值是条目数组，我希望将每个条目理解为Record（因此我需要跳过这些标头）。 ...

mapreduce.TextInputFormat hadoop - mapreduce.TextInputFormat hadoop

我是Hadoop初学者。我遇到了这个自定义的RecordReader程序，该程序一次读取3行，并输出给映射器输入3行的次数。我能够理解为什么使用RecordReader，但是当输入格式类本质上是扩展mapreduce.TextInputFormat类时，我看不到每个InputSpl ...

Hadoop Map Reduce测试-自定义记录读取器 - Hadoop Map reduce Testing - custom record reader

我已经编写了一个自定义记录读取器，并正在寻找示例测试代码以使用MRUnit或任何其他测试框架来测试我的自定义读取器。它按照功能正常工作，但是我想在安装之前添加测试用例。任何帮助将是可观的。 ...

Hadoop-从记录读取器到映射功能的多个文件 - Hadoop - Multiple Files from Record Reader to Map Function

我已经实现了自定义的“合并文件输入格式”，以便为由文件组组成的Map任务创建拆分。我创建了一个解决方案，将拆分的每个文件传递给记录读取器，一切正常。现在，我试图将整个文件集传递给map函数。这是我的记录读取器代码：使用此代码，映射函数会正确地但重复地接收键和值的向量。 ...