[英]Pyspark: how to add a column to a dataframe from another dataframe?
[英]How to add column to one dataframe from another in pyspark?
我是 pyspark 的新手,我試圖對我的數據進行一些標記化。 我有我的第一個 dataframe: reviewID|text|stars
我根據 pyspark 文檔對“文本”進行了標記化:
tokenizer = Tokenizer(inputCol="text", outputCol="words")
countTokens = udf(lambda words: len(words), IntegerType())
tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
.withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)
我得到了我的令牌,但現在我想改變 dataframe 看起來像這樣:
單詞|星星
“文字”是我的標記。
所以我需要加入我的第一個 dataframe 和標記化的 dataframe 以獲得類似的東西。 請你幫助我好嗎? 如何向另一個 dataframe 添加一列?
好的,我現在明白了。 我只需要制作:
tokenizer = Tokenizer(inputCol="text", outputCol="words")
tokenized = tokenizer.transform(df2)
tokenized.select("text", "words", "stars").show(truncate=False)
有用!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.