[英]Pig: Hadoop jobs Fail
我有一个猪脚本,用于查询csv文件中的数据。
该脚本已在本地使用小型和大型.csv文件进行测试。
在Small Cluster中:它从处理脚本开始,在完成40%的调用后失败
错误只是, Failed to read data from "path to file"
我推断的是,脚本可以读取文件,但是有一些连接丢失,消息丢失
但我只得到上面提到的错误。
一般问题的答案是更改配置文件中的错误级别,将这两行添加到mapred-site.xml
log4j.logger.org.apache.hadoop = error,A
log4j.logger.org.apache.pig= error,A
在我的情况下,它是一个OutOfMemory异常
检查您的日志,如果需要,增加详细级别,但可能您正面临和内存不足错误。
查看有关如何更改Pig日志记录的答案 。
要更改Hadoop中的内存,请更改hadoop-env.sh
文件,如此处所示
# The following applies to multiple commands (fs, dfs, fsck, distcp etc)
export HADOOP_CLIENT_OPTS="-Xmx128m ${HADOOP_CLIENT_OPTS}"
对于Apache PIG,您可以在pig bash文件的标题中找到它 :
# PIG_HEAPSIZE The maximum amount of heap to use, in MB.
# Default is 1000.
因此,您可以使用export
或在.bashrc
文件中设置它
$ export PIG_HEAPSIZE=4096MB
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.