我正在尝试使用Pig和Twitter的大象鸟库解析一个相当简单的json文件,但是它变成了一个非常痛苦的调试过程。 json具有以下结构: 行的示例: { “oid_id”:{ “OID”: “573239f905474a686e2333f0”}, “书签”:[{ “ID ...
我正在尝试使用Pig和Twitter的大象鸟库解析一个相当简单的json文件,但是它变成了一个非常痛苦的调试过程。 json具有以下结构: 行的示例: { “oid_id”:{ “OID”: “573239f905474a686e2333f0”}, “书签”:[{ “ID ...
谁能帮我弄清楚为什么我在使用 REGISTER 注册 jar 文件“大象鸟”以加载 json 数据时出错: 我在猪 0.16 的本地模式下工作并得到错误:/home/shanky/Downloads/elephant-bird-hadoop-compat-4.1.jar' does not exi ...
也许这是一个简单的问题,但我很难解决这个问题。 目前,我有一个伪分布式HDFS,其中包含使用protobuf 3.0.0编码的记录。 然后,使用Elephant-Bird / Hive,我可以将该数据放入Hive表中进行查询。 我遇到的问题是对数据进行分区。 这是我正在使用的表创建语 ...
我有一个将 protobuf 写入 HDFS 的数据管道,现在我需要一种查询该数据的方法。 我偶然发现了大象鸟和蜂巢,并且一直试图让这个解决方案运行一天。 以下是我采取的步骤: 1.) 安装了 Hadoop 2.7.3、Hive 2.1.1 和 Protobuf 3.0.0 2.) 克隆象 ...
我无法使用带有Hive的大象鸟4.14反序列化已重复输入字符串的protobuf数据。 这似乎是因为重复字符串功能仅在Protobuf 2.6中可用,而在Protobuf 2.5中不可用。 在AWS EMR集群中运行我的配置单元查询时,它使用与AWS Hive捆绑在一起的Protobuf 2 ...
我的问题类似于这个未解决的问题: [ https://stackoverflow.com/questions/42140344/elephantbird-dependency-jars][1] 我已经注册了大象罐必须运行的所有罐子。 以下链接告诉我这些信息:1: 从 ...
如果记录采用以下格式,则可以使用Elephantbird JsonLoader加载数据: 但是实际数据采用以下格式:(用方括号括起来) 当我尝试解析它时,它不会抛出错误,也不会提供任何有用的输出。 显示成功! 读取0条记录,写入0条记录。 请建议如何使用方括号处理数据。 ...
我想将Billionaires JSON数据集解析为Pig。可以在此处找到JSON文件。 以下是每个条目的内容: 尝试1 我尝试使用grunt中的以下命令加载此数据: 亿万富翁=加载'亿万富翁。杰森'使用JsonLoader('财富:(价值数十亿:双倍,如何:(类别 ...
这是继此 我的新猪脚本是: 该代码在本地模式下工作: pig -x local user_posts.pig 但是它在mapreduce模式下失败: pig -x mapreduce user_posts.pig 我将罐子移到了完全相同位置的所有数据节点。 我不确定还 ...
我有一个使用Elephant Bird json loader的猪脚本。 我的输出正确,但字段名称错误。 我的输出具有字段名称本身的val_n instaed: 我想要类似的东西: 如何获得列名? ...
提前致谢。 当前,我们正在尝试使用协议缓冲区字节数据创建Hive表。 我们已经执行了使用协议缓冲区创建Hive表的所有可能步骤,但是在创建Hive表NullPointerException获得了NullPointerException 。 以下是所有必需的详细信息。 版本- ...
我长期以来一直在面对这个问题。 我试图解决这个问题,但我做不到。 我需要一些专家意见来解决此问题。 我正在尝试加载样本推文json文件。 sample.json;- 我试图使用ELEPHANT BIRD加载此json文件 脚本:- 输出:- 但是当我 ...
我在简单地加载数据以进行测试和分析时遇到了问题。 我正在使用 https://www.reddit.com/r/datasets/comments/3oiv9z/reddit_september_comment_archive_is_now_available/ 使用仅从该文 ...
我正在尝试使用Pig中的Elephant Bird解析嵌套的JSON对象,该对象的级别可以包含袋子和/或元组。 引用第四级的列会导致某些奇怪的行为。 Pig在引用第四列及以下列时遇到问题。 似乎是因为那里的数据在bag,tuple和map之间做了一些交替。 需要明确的是,JsonLo ...
我有一个具有不同架构的JSON文件。 为此,我编写了一个猪脚本,该脚本利用twitter的Elephant-Bird库加载JSON数据并将其转换为制表符分隔的文件。 但是,如果输入JSON文件中的一行缺少“ title”键(上例中的第2行),则tvs文件也不会代替它,例如: ...
象鸟的自述文件提到: Thrift 0.5.0、0.6.0、0.7.0,大于0.9的版本通过Thrift9 Maven配置文件提供 我正在使用mvn package -e -Dprotobuf.version=2.6.1 -Dthrift.version=0.9.1但这给了我错 ...
我正在以mapreduce模式运行PIG脚本。 该脚本读取RCFile(包含以GZIP压缩格式存储的Thrift序列化数据),使用UDF将其反序列化,从Thrift结构中提取某些字段,并将其存储。 一些映射器失败,并出现以下错误: 这是我的脚本: 我正在使用libthri ...
我想在Pig中解析一串复杂的JSON。 具体来说,我希望Pig将我的JSON数组理解为一个包,而不是单个chararray。 我发现可以使用Twitter的Elephant Bird或Mozilla的Akela库来解析复杂的JSON。 (我发现了一些其他库,但由于使用HCatalog Lo ...
根据评论要求,这是的最后转储 http://textuploader.com/ay4a8 更新#2我检查了错误中提到的在线仓库 http://maven.twttr.com/com/twitter/elephant-bird/ 它是空的。 我该怎么办? 更 ...
我想使用大象鸟罐子与猪一起处理twitter json对象,为此我编写了猪脚本,如下所示。 REGISTER '/usr/lib/pig/lib/elephant-bird-hadoop-compat-4.1.jar'; REGISTER '/usr/lib/pig/lib/el ...