什么相当于pyspark中的scala.util.Try？

Question

我有一个糟糕的HTTPD access_log，只想跳过“糟糕”的行。

在scala中，这很简单：

import scala.util.Try

val log = sc.textFile("access_log")

log.map(_.split(' ')).map(a => Try(a(8))).filter(_.isSuccess).map(_.get).map(code => (code,1)).reduceByKey(_ + _).collect()

对于python我通过使用“lambda”表示法明确定义函数来获得以下解决方案：

log = sc.textFile("access_log")

def wrapException(a):
    try:
        return a[8]
    except:
        return 'error'

log.map(lambda s : s.split(' ')).map(wrapException).filter(lambda s : s!='error').map(lambda code : (code,1)).reduceByKey(lambda acu,value : acu + value).collect()

在pyspark中有更好的方法（例如在Scala中）吗？

非常感谢！

Answer 1

更好是一个主观的术语，但你可以尝试一些方法。

在这种特殊情况下，您可以做的最简单的事情是避免任何例外情况。 您只需要一个flatMap和一些切片：
```
 log.flatMap(lambda s : s.split(' ')[8:9]) 
```
如您所见，它意味着不需要异常处理或后续filter 。

可以使用简单的包装器扩展以前的想法

 def seq_try(f, *args, **kwargs): try: return [f(*args, **kwargs)] except: return []

和示例用法

 from operator import div # FYI operator provides getitem as well. rdd = sc.parallelize([1, 2, 0, 3, 0, 5, "foo"]) rdd.flatMap(lambda x: seq_try(div, 1., x)).collect() ## [1.0, 0.5, 0.3333333333333333, 0.2]

最后更多OO方法：

 import inspect as _inspect class _Try(object): pass class Failure(_Try): def __init__(self, e): if Exception not in _inspect.getmro(e.__class__): msg = "Invalid type for Failure: {0}" raise TypeError(msg.format(e.__class__)) self._e = e self.isSuccess = False self.isFailure = True def get(self): raise self._e def __repr__(self): return "Failure({0})".format(repr(self._e)) class Success(_Try): def __init__(self, v): self._v = v self.isSuccess = True self.isFailure = False def get(self): return self._v def __repr__(self): return "Success({0})".format(repr(self._v)) def Try(f, *args, **kwargs): try: return Success(f(*args, **kwargs)) except Exception as e: return Failure(e)

和示例用法：

 tries = rdd.map(lambda x: Try(div, 1.0, x)) tries.collect() ## [Success(1.0), ## Success(0.5), ## Failure(ZeroDivisionError('float division by zero',)), ## Success(0.3333333333333333), ## Failure(ZeroDivisionError('float division by zero',)), ## Success(0.2), ## Failure(TypeError("unsupported operand type(s) for /: 'float' and 'str'",))] tries.filter(lambda x: x.isSuccess).map(lambda x: x.get()).collect() ## [1.0, 0.5, 0.3333333333333333, 0.2]

您甚至可以使用multipledispatch模式匹配

 from multipledispatch import dispatch from operator import getitem @dispatch(Success) def check(x): return "Another great success" @dispatch(Failure) def check(x): return "What a failure" a_list = [1, 2, 3] check(Try(getitem, a_list, 1)) ## 'Another great success' check(Try(getitem, a_list, 10)) ## 'What a failure'

如果您喜欢这种方法，我会向GitHub和pypi推送一些更完整的实现。

Answer 2

首先，让我生成一些随机数据开始使用。

import random
number_of_rows = int(1e6)
line_error = "error line"
text = []
for i in range(number_of_rows):
    choice = random.choice([1,2,3,4])
    if choice == 1:
        line = line_error
    elif choice == 2:
        line = "1 2 3 4 5 6 7 8 9_1"
    elif choice == 3:
        line = "1 2 3 4 5 6 7 8 9_2"
    elif choice == 4:
        line = "1 2 3 4 5 6 7 8 9_3"
    text.append(line)

现在我有一个字符串text看起来像

  1 2 3 4 5 6 7 8 9_2
  error line
  1 2 3 4 5 6 7 8 9_3
  1 2 3 4 5 6 7 8 9_2
  1 2 3 4 5 6 7 8 9_3
  1 2 3 4 5 6 7 8 9_1
  error line
  1 2 3 4 5 6 7 8 9_2
  ....

你的解决方案

def wrapException(a):
    try:
        return a[8]
    except:
        return 'error'

log.map(lambda s : s.split(' ')).map(wrapException).filter(lambda s : s!='error').map(lambda code : (code,1)).reduceByKey(lambda acu,value : acu + value).collect()

#[('9_3', 250885), ('9_1', 249307), ('9_2', 249772)]

这是我的解决方案：

from operator import add
def myfunction(l):
    try:
        return (l.split(' ')[8],1)
    except: 
        return ('MYERROR', 1) 
log.map(myfunction).reduceByKey(add).collect()
#[('9_3', 250885), ('9_1', 249307), ('MYERROR', 250036), ('9_2', 249772)]

评论：

（1）我强烈建议也计算带有“错误”的行，因为它不会增加太多的开销，也可以用于健全性检查，例如，所有的计数应该加起来总计的行数。 log，如果你过滤掉那些行，你就不知道那些是真正坏的行或你的编码逻辑出了什么问题。

（2）我将尝试将所有行级操作打包在一个函数中，以避免链接map ， filter函数，因此它更具可读性。

（3）从性能的角度来看，我生成了一个1M记录的样本，我的代码在3秒内完成，你的代码在2秒内完成，由于数据太小而且我的集群非常强大，所以不是一个公平的比较，我建议你生成一个更大的文件（1e12？）并为你做一个基准测试。

什么相当于pyspark中的scala.util.Try？

问题描述

2 个解决方案

解决方案1
7 2015-10-28 09:21:47

解决方案2
2 2015-10-28 06:19:42

什么相当于pyspark中的scala.util.Try？

问题描述

2 个解决方案

解决方案1 7 2015-10-28 09:21:47

解决方案2 2 2015-10-28 06:19:42

解决方案1
7 2015-10-28 09:21:47

解决方案2
2 2015-10-28 06:19:42