猪：Hadoop工作失败

Question

我有一个猪脚本，用于查询csv文件中的数据。

该脚本已在本地使用小型和大型.csv文件进行测试。

在Small Cluster中：它从处理脚本开始，在完成40％的调用后失败

错误只是， Failed to read data from "path to file"

我推断的是，脚本可以读取文件，但是有一些连接丢失，消息丢失

但我只得到上面提到的错误。

Answer 1

一般问题的答案是更改配置文件中的错误级别，将这两行添加到mapred-site.xml

log4j.logger.org.apache.hadoop = error,A 
log4j.logger.org.apache.pig= error,A

在我的情况下，它是一个OutOfMemory异常

Answer 2

检查您的日志，如果需要，增加详细级别，但可能您正面临和内存不足错误。

查看有关如何更改Pig日志记录的答案。

要更改Hadoop中的内存，请更改hadoop-env.sh文件，如此处所示

# The following applies to multiple commands (fs, dfs, fsck, distcp etc)
export HADOOP_CLIENT_OPTS="-Xmx128m ${HADOOP_CLIENT_OPTS}"

对于Apache PIG，您可以在pig bash文件的标题中找到它：

# PIG_HEAPSIZE The maximum amount of heap to use, in MB.
# Default is 1000.

因此，您可以使用export或在.bashrc文件中设置它

$ export PIG_HEAPSIZE=4096MB