簡體   English   中英

如何在 pyspark 中從另一個 dataframe 添加列?

[英]How to add column to one dataframe from another in pyspark?

我是 pyspark 的新手,我試圖對我的數據進行一些標記化。 我有我的第一個 dataframe: reviewID|text|stars

我根據 pyspark 文檔對“文本”進行了標記化:

tokenizer = Tokenizer(inputCol="text", outputCol="words")

countTokens = udf(lambda words: len(words), IntegerType())

tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
    .withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)

我得到了我的令牌,但現在我想改變 dataframe 看起來像這樣:

單詞|星星

“文字”是我的標記。

所以我需要加入我的第一個 dataframe 和標記化的 dataframe 以獲得類似的東西。 請你幫助我好嗎? 如何向另一個 dataframe 添加一列?

好的,我現在明白了。 我只需要制作:

tokenizer = Tokenizer(inputCol="text", outputCol="words")


tokenized = tokenizer.transform(df2)
tokenized.select("text", "words", "stars").show(truncate=False)

有用!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM