簡體 English 中英

將功能應用於Spark RDD

[英]Apply function to spark RDD

原文 2016-02-19 16:15:24 3 1 python/ apache-spark/ pyspark

我正在嘗試對推文進行一些分析。 我想將.lower()應用於推text中的每個text 。 我用下面的代碼

    actual_tweets = actual_tweets.map(lambda line: line["text"].lower() and line["quoted_status"]["text"].lower() if 'quoted_status' in line else line["text"].lower()).collect()

問題是因為我正在使用map ，所以這行代碼將text屬性轉換為小寫，並向我返回忽略所有其他屬性的唯一text屬性，這不是我想要的。 我只是想知道spark transformations幫助我實現我想要的目標。

1 個解決方案

例如，您可以返回一個元組（輸入，transformed_input）：

def transform(line):
    if 'quoted_status' in line:
        return (
            # Is `and` what you really want here?
            line, line["text"].lower() and line["quoted_status"]["text"].lower() 
        )
    else:
        return line, line["text"].lower()

actual_tweets.map(transform)

在 spark 的最后一個 RDD 中運行 function

[英]Running a function in the last RDD in spark

Spark：在RDD map（）中使用迭代器Lambda函數

[英]Spark: Using iterator lambda function in RDD map()

Spark - map function 可用於 Dataframe 還是僅 RDD？

[英]Spark - is map function available for Dataframe or just RDD?

將gzip文件保存在應用於rdd的函數中

[英]Save a gzip file in a function apply on rdd

Spark RDD中是否有類似sql中的“ like”功能的類似功能？

[英]Is there any similar function in spark RDD like the 'like' function in sql?

這個用帶有兩個參數的 lambda 函數映射的 Spark RDD 有什么問題？

[英]What is wrong with this Spark RDD mapped with a lambda function with two arguments?

用於在 Spark(Python) 中過濾 RDD 的 Lambda 函數 - 檢查元素是否不是空字符串

[英]Lambda function for filtering RDD in Spark(Python) - check if element not empty string

Jupyter Notebooks Spark RDD 拆分功能——去掉括號

[英]Jupyter Notebooks Spark RDD split function - remove brackets

Spark：使用聚合函數計算RDD中特定字母的數量

[英]Spark: count number of specific letter in RDD using aggregate function

如何按屬性/鍵過濾 RDD，然后使用 pyspark 應用 function？

[英]How to filter RDD by attribute/key and then apply function using pyspark?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在 spark 的最后一個 RDD 中運行 function Spark：在RDD map（）中使用迭代器Lambda函數 Spark - map function 可用於 Dataframe 還是僅 RDD？將gzip文件保存在應用於rdd的函數中 Spark RDD中是否有類似sql中的“ like”功能的類似功能？這個用帶有兩個參數的 lambda 函數映射的 Spark RDD 有什么問題？用於在 Spark(Python) 中過濾 RDD 的 Lambda 函數 - 檢查元素是否不是空字符串 Jupyter Notebooks Spark RDD 拆分功能——去掉括號 Spark：使用聚合函數計算RDD中特定字母的數量如何按屬性/鍵過濾 RDD，然后使用 pyspark 應用 function？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM