简体   繁体   English

从数据中删除 ² 符号

[英]Remove ² Symbol from data

Helloo so I am currently cleaning my data using pandas.你好,所以我目前正在使用 pandas 清理我的数据。

I use this following code我使用以下代码

import pandas as pd


#buat lowercase
baca = pd.read_csv('E:\coba8.csv', encoding='utf-16')
#periksa = baca.DataFrame(baca, columns = ['Comment'])

#df=baca["Comment"].str.lower()
#ilangin simbol
df1=baca["Comment"].str.replace('[^\w\s]','')
#ilangin angka
df2=df1.str.replace('\d+','')
#ilangin enter
df3=df2.str.replace('\n',' ',regex=True)
df=df3.str.lower()


df.to_csv('newcoba8_5.csv', index=False)   
print(df)

The result is already satisfying me but in some of the row this weird character appears结果已经让我满意了,但在某些行中,这个奇怪的角色出现了

² 

Example of the row that contains the character包含字符的行示例

banyak orang² dari luar yang mudik di jawa timur sihmasyarakat orang² di surabaya bandel² apalagi yang nyangkruk di warkop bagi laki ato perempuan

biarkan saja jd no  biar orang² yg susah di bilangin ngerasain akibatnya  di daerahku orang² masih beraktifiras seperti biasa tarawih jumatan  waktu di masjid dll tanpa pake masker  masih berdempetan

The Row in the source file源文件中的行

Banyak orang² dari luar yang mudik di jawa timur sih+masyarakat orang² di Surabaya bandel² apalagi yang nyangkruk di warkop bagi laki ato perempuan

Biarkan saja jd no 1, biar orang² yg susah di bilangin ngerasain akibatnya. Di daerahku orang² masih beraktifiras seperti biasa, tarawih, jum'atan, 5 waktu di masjid, dll, tanpa pake masker & masih berdempetan.

Any solution to make that character disappear?有什么办法可以让那个角色消失吗?

I think you are using the wrong encoding when reading the data.我认为您在读取数据时使用了错误的编码。 You should probably use the Indonesian ASCII code page.您可能应该使用印尼语 ASCII 代码页。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM