[英]Python Pandas Data Frame: One column contains special HTML spcial characters such as & < Is there a way to remove them?
[英]Remove special characters python data frame
我想從列中刪除特殊字符和我選擇的一些單詞。
df['tweet_text'][0]
'\\": \\"#\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 TEXAS Corona update 19-MAY-21\\\\n\\\\nTotal Deaths 51","180\\\\n\\\\nhttps://t.co/jeoAqC07Oq\\\\n\\\\n#\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588updates #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588 #\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\\\u2588\\"","\\"'
我用了
df['tweet_text'] = df['tweet_text'].str.replace('[#,@,&,{,},",:,//,\\\n,-,\\\\,u2588]', '')
' 德克薩斯州電暈 pdate 19MAY1nn 總死亡人數 110nnhttpst.cojeoAqC07Oqnn pdates '
正如您在輸出中看到的那樣,沒有刪除 "nn",並且刪除了每個 "u"。 你能幫我解決這個問題嗎? 謝謝你!
.replace()
使用正則表達式。 您的正則表達式字符類'[#,@,&,{,},",:,//,\\\\\\n,-,\\\\\\\\,u2588]'
被解析為
[#,@,&,{,},",:,//,\
,-,\\,u2588]
所以它將匹配換行符和字符
"#&,/258:@\\u{}\u003c/code> (不過不是破折號,因為它是正則表達式中的范圍分隔符)。
您需要閱讀正則表達式的語法。
(但是,如果您的數據框開始時有這樣的字符串,恐怕您的數據也會以其他方式損壞...)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.