如何在Apache Spark中指定浮點精度？

Question

有沒有一種方法可以為spark中的浮點數指定精度，最好是在將RDD寫入文件之前，以便在計算時不會丟失精度？

最低工作示例

    sqlCtxt = HiveContext(sc)

    fulldata = sqlCtxt.jsonFile(DATA_FILE)
    fulldata.registerTempTable("fulldata")

    newcpulists = sqlCtxt.sql('SELECT xxx FROM fulldata')


    def reduceSumPerc(x,y):
            #some reducefunction

    def mapfunc(x):
            #some map function

    reducedresult = newcpulists.map(mapfunc).reduceByKey(reduceSumPerc)

    # I want to reduce the precision just at this line, before writing to file.
    reducedresult.coalesce(1, True).saveAsTextFile(RESULT_PATH)

Answer 1

這樣的操作不在Spark范圍內。 由於saveAsTextFile只需對非unicode數據調用unicode ，而對unicode調用.encode ，那么您要做的就是使用標准Python格式化工具手動格式化輸出字符串，例如：

rdd = sc.parallelize([("foo", 0.123123132), ("bar", 0.00000001)])
rdd.map(lambda x: "{0}, {1:0.2f}".format(*x)).saveAsTextFile(...)

如何在Apache Spark中指定浮點精度？

問題描述

1 個解決方案

解決方案1
2 已采納 2016-03-14 17:03:52

如何在Apache Spark中指定浮點精度？

問題描述

1 個解決方案

解決方案1 2 已采納 2016-03-14 17:03:52

解決方案1
2 已采納 2016-03-14 17:03:52