[英]pandas decoding a string returns NaN
我正在練習 kaggle 新聞標題數據集: https://www.kaggle.com/aaron7sun/stocknews#Combined_News_DJIA.csv
df = pd.read_csv('./data/Combined_News_DJIA.csv')
當閱讀新聞標題的 DataFrame 時,我得到了這個系列的格式:
0 b"Georgia 'downs two Russian warplanes' as cou...
1 b'Why wont America & Nato help us? If they w...
2 b'Remember that adorable 9-year-old who sang a...
3 b' U.S. refuses Israel weapons to attack Iran:...
4 b'All the experts admit that we should legalis...
我嘗試使用以下內容:
df['Series'].str.decode("utf-8")
但是 output 是NaN
的列表。 有任何想法嗎? 在整個 DataFrame 而不僅僅是一個系列上實施會很棒。
您無法從 UTF-8 解碼它,因為它已經是一個字符串 - 而不是字節序列。
該文件的內容確實令人困惑:它包含以"b'...
開頭的字符串,這會誤導用戶認為它是字節 - 但事實並非如此。
如果你運行df.Top1[0]
,你會看到它包含:
'b"Georgia \'downs two Russian warplanes\' as countries move to brink of war"'
而type(df.Top1[0])
只是一個字符串。 因此 - 你不能從 UTF-8 解碼它。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.