簡體   English   中英

什么是數據流中的python zip函數的等價物?

[英]what's the equivalent of the python zip function in dataflow?

我正在使用python apache_beam版本的數據流。 我有大約300個文件,每個文件包含400萬個條目。 整件事大約是5Gb,存放在一個gs桶上。

我可以通過讀取每個文件輕松生成數組{x_1, ... x_n}的PCollection,但我現在需要執行的操作就像python zip函數:我想要一個范圍從0到n-1的PCollection,其中每個元素i包含文件中所有x_i的數組。 我試圖yield ING (i, element)的每一個元素,然后運行GroupByKey,但這是太緩慢,效率低下(它不會因為內存限制運行在所有本地,並花了24小時的雲,而我我確定如果需要,我至少可以加載所有數據集。

我如何重組管道以干凈利落地完成這項工作?

正如jkff在上面的注釋中指出的那樣,代碼確實是正確的,並且該過程是編程張量流算法的推薦方法。 應用於每個元素的DoFn是瓶頸。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM