簡體   English   中英

pandas 解碼字符串返回 NaN

[英]pandas decoding a string returns NaN

我正在練習 kaggle 新聞標題數據集: https://www.kaggle.com/aaron7sun/stocknews#Combined_News_DJIA.csv

df = pd.read_csv('./data/Combined_News_DJIA.csv')

當閱讀新聞標題的 DataFrame 時,我得到了這個系列的格式:

0       b"Georgia 'downs two Russian warplanes' as cou...
1       b'Why wont America & Nato help us? If they w...
2       b'Remember that adorable 9-year-old who sang a...
3       b' U.S. refuses Israel weapons to attack Iran:...
4       b'All the experts admit that we should legalis...

我嘗試使用以下內容:

df['Series'].str.decode("utf-8")

但是 output 是NaN的列表。 有任何想法嗎? 在整個 DataFrame 而不僅僅是一個系列上實施會很棒。

您無法從 UTF-8 解碼它,因為它已經是一個字符串 - 而不是字節序列。

該文件的內容確實令人困惑:它包含以"b'...開頭的字符串,這會誤導用戶認為它是字節 - 但事實並非如此。

如果你運行df.Top1[0] ,你會看到它包含:

'b"Georgia \'downs two Russian warplanes\' as countries move to brink of war"'

type(df.Top1[0])只是一個字符串。 因此 - 你不能從 UTF-8 解碼它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM