[英]How to remove special characters including commas, quotes from a column string in apache beam (Google cloud dataflow)
我的 CSV 中幾乎沒有包含特殊字符的記錄。 考慮 CSV 中的員工數據示例。 列 id,name,designation,address,salary 1001, Peter Ocon, Manager, "42, Willis Way St, Waterloo, Ohio, US", 5000 等等...
如您所見,我需要刪除 apache 梁中“地址”列中的逗號和引號。
這是使用這個實現的 -
beam.Regex.replace_all(r'"([^"]*)"',lambda x:x.group(1).replace(',',''))
注意 - 這應該寫在管道中的“拆分”function 之前。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.