[英]Apply function to spark RDD
我正在嘗試對推文進行一些分析。 我想將.lower()
應用於推text
中的每個text
。 我用下面的代碼
actual_tweets = actual_tweets.map(lambda line: line["text"].lower() and line["quoted_status"]["text"].lower() if 'quoted_status' in line else line["text"].lower()).collect()
問題是因為我正在使用map
,所以這行代碼將text
屬性轉換為小寫,並向我返回忽略所有其他屬性的唯一text
屬性,這不是我想要的。 我只是想知道spark transformations
幫助我實現我想要的目標。
例如,您可以返回一個元組(輸入,transformed_input):
def transform(line):
if 'quoted_status' in line:
return (
# Is `and` what you really want here?
line, line["text"].lower() and line["quoted_status"]["text"].lower()
)
else:
return line, line["text"].lower()
actual_tweets.map(transform)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.