簡體   English   中英

刪除特殊字符python數據框

[英]Remove special characters python data frame

我想從列中刪除特殊字符和我選擇的一些單詞。

df['tweet_text'][0]
'\\": \\"#\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 TEXAS Corona update 19-MAY-21\\\\n\\\\nTotal Deaths 51","180\\\\n\\\\nhttps://t.co/jeoAqC07Oq\\\\n\\\\n#\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588updates #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\"","\\"'

我用了

df['tweet_text'] = df['tweet_text'].str.replace('[#,@,&,{,},",:,//,\\\n,-,\\\\,u2588]', '')

' 德克薩斯州電暈 pdate 19MAY1nn 總死亡人數 110nnhttpst.cojeoAqC07Oqnn pdates '

正如您在輸出中看到的那樣,沒有刪除 "nn",並且刪除了每個 "u"。 你能幫我解決這個問題嗎? 謝謝你!

.replace()使用正則表達式。 您的正則表達式字符類'[#,@,&,{,},",:,//,\\\\\\n,-,\\\\\\\\,u2588]'被解析為

[#,@,&,{,},",:,//,\
,-,\\,u2588]

所以它將匹配換行符和字符"#&,/258:@\\u{}\u003c/code> (不過不是破折號,因為它是正則表達式中的范圍分隔符)。

您需要閱讀正則表達式的語法。

(但是,如果您的數據框開始時有這樣的字符串,恐怕您的數據也會以其他方式損壞...)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM