如何在Hive中将参数传递给Python流脚本？

Question

Hive用户可以通过脚本通过流表来转换该数据：

ADD FILE replace-nan-with-zeros.py;

SELECT
  TRANSFORM (...)
  USING 'python replace-nan-with-zeros.py'
  AS (...)
FROM some_table;

我有一个简单的Python脚本：

#!/usr/bin/env python
import sys


kFirstColumns= 7

def main(argv):

    for line in sys.stdin:
        line = line.strip();
        inputs = line.split('\t')

        # replace NaNs with zeros
        outputs = [ ]
        columnIndex = 1;
        for value in inputs:
            newValue = value
            if columnIndex > kFirstColumns:
                newValue = value.replace('NaN','0.0')
            outputs.append(newValue)
            columnIndex = columnIndex + 1

        print '\t'.join(outputs)

if __name__ == "__main__":
    main(sys.argv[1:])

如何使kFirstColumns成为此Python脚本的命令行或其他类型的参数？

谢谢！

Answer 1

解决方案确实很简单。 采用

ADD FILE replace-nan-with-zeros.py;

SELECT
  TRANSFORM (...)
  USING 'python replace-nan-with-zeros.py 7'
  AS (...)
FROM some_table;

而不只是

  ...
  USING 'python replace-nan-with-zeros.py'
  ...

这对我来说可以。

Python脚本应更改为：

kFirstColumns= int(sys.argv[1])

Answer 2

好吧，您已经在这样做了。

您正在获取sys.argv[1:]并将其传递给main，但没有使用参数。 我建议（最简单的方法）是按以下方式更改脚本：

def main(kFirstColumns):
    ...

if __name__ == "__main__":
    main(int(sys.argv[1]))

然后像这样运行您的脚本

$ python myScript.py 7

然后，当您想执行更复杂的命令行选项时，可以查看argparse 。

Answer 3

有点骇人听闻，但是您可以通过将参数作为查询的附加列来传递参数。

SELECT
  TRANSFORM (...)
  USING 'python replace-nan-with-zeros.py'
  AS (...)
FROM (SELECT 7 AS kFirstColumns, * FROM some_table);

然后，当您解析脚本中的行时，第一列值将是您要查找的参数。 只需将其弹出到本地变量中，即可将其从列值列表中删除。

line = line.strip();
inputs = line.split('\t')
kFirstColumns = inputs.pop(0)

希望能有所帮助。

如何在Hive中将参数传递给Python流脚本？

问题描述

3 个解决方案

解决方案1
4 已采纳 2013-05-24 04:59:36

解决方案2
1 2013-05-24 03:55:34

解决方案3
0 2013-05-24 09:58:57

如何在Hive中将参数传递给Python流脚本？

问题描述

3 个解决方案

解决方案1 4 已采纳 2013-05-24 04:59:36

解决方案2 1 2013-05-24 03:55:34

解决方案3 0 2013-05-24 09:58:57

解决方案1
4 已采纳 2013-05-24 04:59:36

解决方案2
1 2013-05-24 03:55:34

解决方案3
0 2013-05-24 09:58:57