每當pyspark中的一行出現任何錯誤詞時，我如何獲取文件中的下一行？

Question

我有一個日志文件，我需要在其中檢查每一行。 每當“錯誤”字出現在任何一行時，我都需要在該行之后取下兩行。 我必須在 pyspark 中執行此操作。

例如：輸入日志文件：

1號線

2號線

行...錯誤... 3

4號線

5號線

6號線

輸出將是：

4號線

5號線

我已經使用日志文件創建了一個 rdd，並使用 map() 來遍歷每一行，但我沒有得到確切的想法。

提前致謝。

Answer 1

怎么樣：

# open your file as f
lines = f.readlines()
for i, line in enumerate(lines):
    if "ERROR" in line:
        print(lines[i+1])
        print(lines[i+2])
        # Exit or something you want to do.

Answer 2

這是使用窗口函數的方法：

from pyspark.sql import functions as F
from pyspark.sql.window import Window

# set up DF
df = sc.parallelize([["line1"], ["line2"], ["line3..ERROR"], ["line4"], ["line5"]]).toDF(['col'])

# create an indicator that created a boundary between consecutive errors
win1 = Window.orderBy('col')
df = df.withColumn('hit_error', F.expr("case when col like '%ERROR%' then 1 else 0 end"))
df = df.withColumn('cum_error', F.sum('hit_error').over(win1))

# now count the lines between each error occurrence
win2 = Window.partitionBy('cum_error').orderBy('col')
df = df.withColumn('rownum', F.row_number().over(win2))

# the lines we want are rows 2,3
df.filter("cum_error>0 and rownum in (2,3)").select("col").show(10)```

每當pyspark中的一行出現任何錯誤詞時，我如何獲取文件中的下一行？

問題描述

2 個解決方案

解決方案1
0 2019-01-31 10:11:09

解決方案2
0 2019-01-31 14:01:48

每當pyspark中的一行出現任何錯誤詞時，我如何獲取文件中的下一行？

問題描述

2 個解決方案

解決方案1 0 2019-01-31 10:11:09

解決方案2 0 2019-01-31 14:01:48

解決方案1
0 2019-01-31 10:11:09

解決方案2
0 2019-01-31 14:01:48