Hadoop MapReduce | python中的SMA

Question

我是Python和MapReduce的新手。 我正在尝试使用Python中的Ta-Lib库计算简单移动平均线（SMA）。 我有一个像这样的数据框：

             AA     BB  
2008-03-05  36.60  36.60  
2008-03-04  38.37  38.37  
2008-03-03  38.71  38.71  
2008-03-02  38.00  38.00
2008-03-01  38.32  38.32
2008-02-29  37.14  37.14

AA和BB是股票代码，并显示了6天的价值。
有人可以帮我从这里出去吗？ 地图应该执行什么操作，Reduce应该获得什么输入？

最终输出应打印出库存A和B的SMA。

Answer 1

什么是SMA（简单移动平均线）？ 一种简单的或算术的移动平均值，其计算方法是将多个时间段的有价证券的收盘价相加，然后将该总和除以时间段数。

例如，在上面的示例中，收盘价为：37.14（2008-02-29），38.32（2008-03-01），38.00（2008-03-02），38.71（2008-03-03），38.37（ 2008-03-04），36.60（2008-03-05）。

因此，2008-03-02的3天SMA为（37.14 + 38.32 + 38.00）/ 3 = 37.82 2008-02-29没有3天SMA（因为只有1天的数据：2008-02 -29）和2008年3月1日的3天均线（仅2天有数据：2008-02-29、2008-03-01）。

以下是针对您的数据进行3天SMA的解决方案（您可以轻松地将其更改为“ n”天SMA）。

映射器（m.py）：

import sys
for line in sys.stdin:
    val = line.strip()
    vals = val.split('\t')
    print "%s\t%s:%s" % (vals[0], vals[1], vals[2])

映射器逻辑：它仅读取行中制表符分隔的值并输出“ {key} \\ t {val1}：{val2}。

例如，对于第一行（制表符分隔的值）：

2008-03-05    36.60    36.60

它输出：

2008-03-05    36.60:36.60

减速器（r.py）：

import sys

lValueA = list()
lValueB = list()

smaInterval = 3

for line in sys.stdin:
    (key, val) = line.strip().split('\t')

    vals = val.split(':')
    lValueA.append(float(vals[0]))
    lValueB.append(float(vals[1]))
    if len(lValueA) == smaInterval:     

        sumA = 0;
        sumB = 0;

        for a in lValueA:
            sumA += a
        for b in lValueB:
            sumB += b

        sumA = sumA / smaInterval;
        sumB = sumB / smaInterval;

        print "%s\t%.2f\t%.2f" % (key, sumA, sumB);
        del lValueA[0]
        del lValueB[0]

减速器逻辑：

它使用2个列表。 一个用于库存A，一个用于库存B。
假设SMA间隔为3（ smaInterval = 3 ）
当输入行进入时，它将解析该行并将值A和值B附加到它们各自的列表中
当任何列表的大小达到3（这是SMA间隔）时，它将计算移动平均值和输出（键，股票A的SMA，股票B的SMA），并从每个列表中删除第零个元素。

我为您的输入执行了此命令。

我执行了它，没有使用下面的Hadoop（input.txt包含问题中提到的输入，并用制表符分隔值）：

cat input.txt | python m.py | sort | python r.py

我得到以下输出（我验证是正确的）：

2008-03-02      37.82   37.82
2008-03-03      38.34   38.34
2008-03-04      38.36   38.36
2008-03-05      37.89   37.89

使用Hadoop框架，您应该能够执行以下操作：

hadoop jar hadoop-streaming-2.7.1.jar -input {Input directory in HDFS} -output {Output directory in HDFS} -mapper {Path to the m.py} -reducer {Path to the r.py}

注意：此代码可以优化，并且可能完全不需要reducer。 如果数据很小，则可以在映射器本身上读取所有值，对它们进行排序，然后计算SMA。 我只是编写了这段代码，以说明使用Hadoop流计算进行SMA的计算。

Hadoop MapReduce | python中的SMA

问题描述

1 个解决方案

解决方案1
0 已采纳 2015-12-01 15:57:19

Hadoop MapReduce | python中的SMA

问题描述

1 个解决方案

解决方案1 0 已采纳 2015-12-01 15:57:19

解决方案1
0 已采纳 2015-12-01 15:57:19