[英]Spark/Scala: Remove some component from a DataFrame with Array typed column
[英]remove a column from a dataframe spark
我有一個包含大量列的 Spark 數據框。 我想從中刪除兩列以獲取新的數據框。
如果列較少,我可以像這樣在 API 中使用 select 方法:
pcomments = pcomments.select(pcomments.col("post_id"),pcomments.col("comment_id"),pcomments.col("comment_message"),pcomments.col("user_name"),pcomments.col("comment_createdtime"));
但是由於從長列表中挑選列是一項繁瑣的任務,是否有解決方法?
使用drop方法和withColumnRenamed方法。
例子:
val initialDf= ....
val dfAfterDrop=initialDf.drop("column1").drop("coumn2")
val dfAfterColRename= dfAfterDrop.withColumnRenamed("oldColumnName","new ColumnName")
嘗試這個:
val initialDf = ...
val dfAfterDropCols = initialDf.drop("column1", "coumn2")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.