简体   繁体   English

当我在 python2.7 中将 pandas 变成 pyspark dataframe 时得到乱码

[英]get garbled character when i turn pandas into pyspark dataframe,in python2.7

origin pandas dataframe is below:原产地 pandas dataframe 如下:

       id           song_name
001MpsbI1FoQgs02 只想好好爱一回
000qq4Kk2WMPgU02  大森林的早晨

and I try to convert pandas dataframe into pyspark dataframe.我尝试将 pandas dataframe 转换为 pyspark Z6A8064B5DF47945555005Z.C47

code:代码:

all_song_py=spark.createDataFrame(all_song[[u'id',u'song_name']],mySchema)

the result is:结果是:

|     id         |    song_name         

|001MpsbI1FoQgs02|åªæƒ³å¥½å¥½çˆ±ä¸€å›ž           
|000qq4Kk2WMPgU02|大森林的早晨

I tried to decode the garbled character using below code,but it doesn't work.我尝试使用以下代码解码乱码,但它不起作用。

decode_udf= udf(lambda val: urllib.unquote(val.encode('utf-8')).decode('gb18030'), StringType())

the result is:结果是:

氓聫陋忙聝鲁氓楼陆氓楼陆莽聢卤盲赂聙氓聸聻

any solution?有什么解决办法吗?

solved.解决了。 by import pyspark.sql.functions encode and decode function.通过导入 pyspark.sql.functions 编码和解码函数。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM