我应该压缩HL7数据以在Hadoop / Hive中使用它吗？或者扩展Hive？

Question

我正在处理大量以2.x格式格式化的HL7消息。 格式是以管道分隔的格式，其中每种格式大致类似于此（虚拟数据）：

MSH|^~\&|EPIC|EPICADT|SMS|SMSADT|199912271408|CHARRIS|ADT^A04|1817457|D|2.5|
PID||0493575^^^2^ID 1|454721||DOE^JOHN^^^^|DOE^JOHN^^^^|19480203|M||B|254 MYSTREET AVE^^MYTOWN^OH^44123^USA||(216)123-4567|||M|NON|400003403~1129086|
NK1||ROE^MARIE^^^^|SPO||(216)123-4567||EC|||||||||||||||||||||||||||
PV1||O|168 ~219~C~PMA^^^^^^^^^||||277^ALLEN MYLASTNAME^BONNIE^^^^|||||||||| ||2688684|||||||||||||||||||||||||199912271408||||||002376853

我想使用Hive或类似的东西对这些数据进行大量查询/探索。 我应该首先使用HParser或类似的方法将这些数据压缩成更多的表格格式吗？ 或者是否值得花时间扩展Hive以便能够通过自定义SerDer或InputFormat进行查询？

Answer 1

您应该能够通过RegExSerde相对轻松地使用正则表达式处理HL7。 话虽这么说，写一个serde并不是非常困难（几个小时），一旦你了解objectinspector和其他Hive管道自定义serde也可以自动提供字段名称，但这是一个小的好处。 单独的解析步骤是过度的。

Answer 2

您可以使用Hadoop API编写自定义的InputFormat和RecordReader ...请参阅此文章以开始使用： http ： //bigdatacircus.com/2012/08/01/wordcount-with-custom-record-reader-of-textinputformat/

我应该压缩HL7数据以在Hadoop / Hive中使用它吗？或者扩展Hive？

问题描述

2 个解决方案

解决方案1
4 已采纳 2012-11-28 00:37:49

解决方案2
1 2013-01-08 16:49:43

我应该压缩HL7数据以在Hadoop / Hive中使用它吗？或者扩展Hive？

问题描述

2 个解决方案

解决方案1 4 已采纳 2012-11-28 00:37:49

解决方案2 1 2013-01-08 16:49:43

解决方案1
4 已采纳 2012-11-28 00:37:49

解决方案2
1 2013-01-08 16:49:43