簡體   English   中英

何時以及如何從 spark 緩存中刪除 DataFrame?

[英]When and how to remove DataFrame from cache in spark?

剛剛學習spark,我想知道我在spark腳本期間是否應該在執行運行DF的代碼后清理數據幀?

例如,

# Do something on friends DF...
friendsByAge = lines.select("age", "friends")
friendsByAge.groupBy("age").avg("friends").show()

# now do something unrelated to friends DF

在上述情況下,在整個驅動程序腳本執行期間(即使我不再需要它), friendsByAge DF 是否保留在內存中,如果確實如此,我是否應該以某種方式清理它,或者一旦我show它已從內存中刪除?

DataFrame 被延遲加載,因此它僅在您運行 action show時加載。 此外,它不會自動緩存(僅當您顯式cachepersist它時),因此您無需擔心清理它。 如果您確實緩存了名為df的 DataFrame ,則可以使用以下方法將其從緩存中刪除:

df.unpersist()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM