[英]Remove ² Symbol from data
Helloo so I am currently cleaning my data using pandas.你好,所以我目前正在使用 pandas 清理我的数据。
I use this following code我使用以下代码
import pandas as pd
#buat lowercase
baca = pd.read_csv('E:\coba8.csv', encoding='utf-16')
#periksa = baca.DataFrame(baca, columns = ['Comment'])
#df=baca["Comment"].str.lower()
#ilangin simbol
df1=baca["Comment"].str.replace('[^\w\s]','')
#ilangin angka
df2=df1.str.replace('\d+','')
#ilangin enter
df3=df2.str.replace('\n',' ',regex=True)
df=df3.str.lower()
df.to_csv('newcoba8_5.csv', index=False)
print(df)
The result is already satisfying me but in some of the row this weird character appears结果已经让我满意了,但在某些行中,这个奇怪的角色出现了
²
Example of the row that contains the character包含字符的行示例
banyak orang² dari luar yang mudik di jawa timur sihmasyarakat orang² di surabaya bandel² apalagi yang nyangkruk di warkop bagi laki ato perempuan
biarkan saja jd no biar orang² yg susah di bilangin ngerasain akibatnya di daerahku orang² masih beraktifiras seperti biasa tarawih jumatan waktu di masjid dll tanpa pake masker masih berdempetan
The Row in the source file源文件中的行
Banyak orang² dari luar yang mudik di jawa timur sih+masyarakat orang² di Surabaya bandel² apalagi yang nyangkruk di warkop bagi laki ato perempuan
Biarkan saja jd no 1, biar orang² yg susah di bilangin ngerasain akibatnya. Di daerahku orang² masih beraktifiras seperti biasa, tarawih, jum'atan, 5 waktu di masjid, dll, tanpa pake masker & masih berdempetan.
Any solution to make that character disappear?有什么办法可以让那个角色消失吗?
I think you are using the wrong encoding when reading the data.我认为您在读取数据时使用了错误的编码。 You should probably use the Indonesian ASCII code page.
您可能应该使用印尼语 ASCII 代码页。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.