簡體   English   中英

如何根據雲數據流 python sdk 中的列值拆分 csv 文件

[英]How to split csv file based on column value in cloud dataflow python sdk

我想使用 ReadFromText 從 GCS 讀取 csv 文件,並希望根據列值拆分為多個文件。

See sample data below 
Col1    Col2    Col3
Value1  data    date
value2  data    date_1
Value3  data    date_2
Value4  data    date_3
Value5  data    date

我想創建文件夾,即 date,date_1..3 和文件名前綴,日期對應的數據應該加載到文件中。

處理每個元素以生成 KV,其中 Key 成為有關您希望 Value 降落的位置的元數據。 然后看看使用動態目的地寫出文件。

將 Key 與 FileIO 一起使用的示例在 SO 上的此答案中

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM