pandas 解碼字符串返回 NaN

Question

我正在練習 kaggle 新聞標題數據集： https://www.kaggle.com/aaron7sun/stocknews#Combined_News_DJIA.csv

df = pd.read_csv('./data/Combined_News_DJIA.csv')

當閱讀新聞標題的 DataFrame 時，我得到了這個系列的格式：

0       b"Georgia 'downs two Russian warplanes' as cou...
1       b'Why wont America &amp; Nato help us? If they w...
2       b'Remember that adorable 9-year-old who sang a...
3       b' U.S. refuses Israel weapons to attack Iran:...
4       b'All the experts admit that we should legalis...

我嘗試使用以下內容：

df['Series'].str.decode("utf-8")

但是 output 是NaN的列表。 有任何想法嗎？ 在整個 DataFrame 而不僅僅是一個系列上實施會很棒。

Answer 1

您無法從 UTF-8 解碼它，因為它已經是一個字符串 - 而不是字節序列。

該文件的內容確實令人困惑：它包含以"b'...開頭的字符串，這會誤導用戶認為它是字節 - 但事實並非如此。

如果你運行df.Top1[0] ，你會看到它包含：

'b"Georgia \'downs two Russian warplanes\' as countries move to brink of war"'

而type(df.Top1[0])只是一個字符串。 因此 - 你不能從 UTF-8 解碼它。

pandas 解碼字符串返回 NaN

問題描述

1 個解決方案

解決方案1
4 2020-05-23 10:01:40

pandas 解碼字符串返回 NaN

問題描述

1 個解決方案

解決方案1 4 2020-05-23 10:01:40

解決方案1
4 2020-05-23 10:01:40