[英]how to read and insert a fixed field file into a database using pyspark dataframe?
我嘗試讀取具有固定字段的平面文件並將其插入表中。 我發現這段代碼允許我將記錄拆分為列並將其分配給 header,但創建的數據框只有一個字符串類型的字段,當我將信息插入表中時,會將所有內容插入一列。
df = sqlContext.read.text("wasbs://container@almacen.blob.core.windows.net/TEXTPSD.DAT")
df.select(
df.value.substr(1,12).alias('valor0'),
df.value.substr(13,9).alias('valor1'),
df.value.substr(22,12).alias('valor2'),
df.value.substr(34,80).alias('nombre')
).show()
df1 = DataFrameWriter(df)
df1.jdbc(url=url, table="tablaPsd", mode="overwrite", properties=properties)
我會很感激你的幫助,謝謝。
將df.select(...)
結果分配給新的 dataframe 然后使用新的 dataframe 使用.jdbc
進行寫入
Example:
df = sqlContext.read.text("wasbs://container@almacen.blob.core.windows.net/TEXTPSD.DAT")
df1 = df.select(
df.value.substr(1,12).alias('valor0'),
df.value.substr(13,9).alias('valor1'),
df.value.substr(22,12).alias('valor2'),
df.value.substr(34,80).alias('nombre')
)
df2 = DataFrameWriter(df1)
df2.jdbc(url=url, table="tablaPsd", mode="overwrite", properties=properties)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.