簡體   English   中英

將存儲在Google雲端存儲上的數據加載到BigQuery的多字符分隔符

[英]Load data stored on google cloud storage with multi character delimiter to BigQuery

我想將多個字符分隔符的數據加載到BigQuery。 BQ load命令目前不支持多個字符分隔符。 它僅支持單個字符分隔符,如“|”,“$”,“〜”等

我知道有一種數據流方法,它將從這些文件中讀取數據並寫入BigQuery。 但是我有大量的小文件(每個400MB的文件)必須寫一個表的單獨分區(分區編號大約700)。 這種方法在數據流方面很慢,因為我必須使用for循環啟動不同的數據流作業,以便將每個文件寫入單獨的表。 此方法運行超過24小時仍未完成。

那么還有其他方法可以將這些具有多個字符分隔符的多個文件加載到BigQuery的每個分區嗎?

從Dataflow的角度來看,您可以通過在每個管道中上傳多個文件來簡化這一過程。 在組裝管道時,您可以在main方法中使用for循環,基本上有許多Read -> Write to BigQuery步驟。

有關詳細信息,另請參閱從本地磁盤將數據加載到BigQuery和Google雲存儲的策略

我對這些問題的懶惰方法:不要在Dataflow中解析,只需將每行原始發送到BigQuery(每行一列)。

然后,您可以使用JS UDF解析BigQuery內部。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM