繁体 English 中英

将功能应用于Spark RDD

[英]Apply function to spark RDD

原文 2016-02-19 16:15:24 1 1 python/ apache-spark/ pyspark

我正在尝试对推文进行一些分析。 我想将.lower()应用于推text中的每个text 。 我用下面的代码

    actual_tweets = actual_tweets.map(lambda line: line["text"].lower() and line["quoted_status"]["text"].lower() if 'quoted_status' in line else line["text"].lower()).collect()

问题是因为我正在使用map ，所以这行代码将text属性转换为小写，并向我返回忽略所有其他属性的唯一text属性，这不是我想要的。 我只是想知道spark transformations帮助我实现我想要的目标。

1 个解决方案

例如，您可以返回一个元组（输入，transformed_input）：

def transform(line):
    if 'quoted_status' in line:
        return (
            # Is `and` what you really want here?
            line, line["text"].lower() and line["quoted_status"]["text"].lower() 
        )
    else:
        return line, line["text"].lower()

actual_tweets.map(transform)

在 spark 的最后一个 RDD 中运行 function

[英]Running a function in the last RDD in spark

Spark：在RDD map（）中使用迭代器Lambda函数

[英]Spark: Using iterator lambda function in RDD map()

Spark - map function 可用于 Dataframe 还是仅 RDD？

[英]Spark - is map function available for Dataframe or just RDD?

将gzip文件保存在应用于rdd的函数中

[英]Save a gzip file in a function apply on rdd

Spark RDD中是否有类似sql中的“ like”功能的类似功能？

[英]Is there any similar function in spark RDD like the 'like' function in sql?

这个用带有两个参数的 lambda 函数映射的 Spark RDD 有什么问题？

[英]What is wrong with this Spark RDD mapped with a lambda function with two arguments?

用于在 Spark(Python) 中过滤 RDD 的 Lambda 函数 - 检查元素是否不是空字符串

[英]Lambda function for filtering RDD in Spark(Python) - check if element not empty string

Jupyter Notebooks Spark RDD 拆分功能——去掉括号

[英]Jupyter Notebooks Spark RDD split function - remove brackets

Spark：使用聚合函数计算RDD中特定字母的数量

[英]Spark: count number of specific letter in RDD using aggregate function

如何按属性/键过滤 RDD，然后使用 pyspark 应用 function？

[英]How to filter RDD by attribute/key and then apply function using pyspark?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 spark 的最后一个 RDD 中运行 function Spark：在RDD map（）中使用迭代器Lambda函数 Spark - map function 可用于 Dataframe 还是仅 RDD？将gzip文件保存在应用于rdd的函数中 Spark RDD中是否有类似sql中的“ like”功能的类似功能？这个用带有两个参数的 lambda 函数映射的 Spark RDD 有什么问题？用于在 Spark(Python) 中过滤 RDD 的 Lambda 函数 - 检查元素是否不是空字符串 Jupyter Notebooks Spark RDD 拆分功能——去掉括号 Spark：使用聚合函数计算RDD中特定字母的数量如何按属性/键过滤 RDD，然后使用 pyspark 应用 function？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM