簡體   English   中英

如何從 apache 梁(谷歌雲數據流)中的列字符串中刪除特殊字符,包括逗號、引號

[英]How to remove special characters including commas, quotes from a column string in apache beam (Google cloud dataflow)

我的 CSV 中幾乎沒有包含特殊字符的記錄。 考慮 CSV 中的員工數據示例。 列 id,name,designation,address,salary 1001, Peter Ocon, Manager, "42, Willis Way St, Waterloo, Ohio, US", 5000 等等...

如您所見,我需要刪除 apache 梁中“地址”列中的逗號和引號。

這是使用這個實現的 -

beam.Regex.replace_all(r'"([^"]*)"',lambda x:x.group(1).replace(',',''))

注意 - 這應該寫在管道中的“拆分”function 之前。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM