[英]How to read .csv files using spark streaming and write to parquet file using Scala?
[英]scala code to read parquet file by passing dynamic values using widgets
我有類似 process/YYYY/MM/DD 的文件夾結構我需要編寫一個 Scala 代碼來讀取這些文件直到 process/YYYY 並且我使用小部件動態傳遞月份和日期。
我使用小部件動態傳遞 mm 和 dd
代碼 val ReadDf = spark.read.format("parquet").option("header","true").load(""mnt/pnt/process/YYYY")
您可以使用以下代碼從小部件獲取月份,然后創建加載路徑:
dbutils.widgets.text("Month", "1")
val widget_month = dbutils.widgets.get("Month").toInt
val path_month = "%02d".format(widget_month)
val pathToReadFrom = s"/mnt/pnt/process/yyyy=2020/mm=${path_month}"
Databricks output 顯示:
widget_month: Int = 1
path_month: String = 01
pathToReadFrom: String = /mnt/pnt/process/yyyy=2020/mm=01
現在,如果您想通過小部件將 arguments 傳遞給筆記本,您可以使用 筆記本工作流從另一個筆記本運行它。 這是該鏈接中的示例:
dbutils.notebook.run("notebook-name", 60, {"argument": "data", "argument2": "data2", ...})
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.