替換pandas數據框列中的前n個元素

Question

我想用我保存的另一個pd.series替換數據框中列的前n元素。 舉個例子

        category   price    store  testscore
0       Cleaning   11.42  Walmart        NaN
1       Cleaning   23.50      Dia        NaN
2  Entertainment   19.99  Walmart        NaN
3  Entertainment   15.95     Fnac        NaN
4           Tech   55.75      Dia        NaN
5           Tech  111.55  Walmart        NaN

在這里，我想用一組新的字符串替換testscore中的前三個NaN。

假設我有一個變量：

cats = pd.Series(df['category'][0:2])

所以我可以將其放在testscore列中嗎？

        category   price    store      testscore
0       Cleaning   11.42  Walmart       Cleaning
1       Cleaning   23.50      Dia       Cleaning
2  Entertainment   19.99  Walmart  Entertainment
3  Entertainment   15.95     Fnac            NaN
4           Tech   55.75      Dia            NaN
5           Tech  111.55  Walmart            NaN

但是，每當我嘗試執行此操作時，它將無法正常工作。

創建此偽數據集的代碼：

import pandas as pd
import numpy as np

df = pd.DataFrame({'category': ['Cleaning', 'Cleaning', 'Entertainment', 'Entertainment', 'Tech', 'Tech'],
                        'store': ['Walmart', 'Dia', 'Walmart', 'Fnac', 'Dia','Walmart'],
                        'price':[11.42, 23.50, 19.99, 15.95, 55.75, 111.55],
                        'testscore': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]})

print(df)

df2 = pd.DataFrame({'category': ['Cleaning', 'Cleaning', 'Entertainment', 'Entertainment', 'Tech', 'Tech'],
                        'store': ['Walmart', 'Dia', 'Walmart', 'Fnac', 'Dia','Walmart'],
                        'price':[11.42, 23.50, 19.99, 15.95, 55.75, 111.55],
                        'testscore': ['Cleaning', 'Cleaning', 'Entertainment', np.nan, np.nan, np.nan]})

print(df2)

Answer 1

只需使用df.loc ：

import pandas as pd
import numpy as np

df = pd.DataFrame({'category': ['Cleaning', 'Cleaning', 'Entertainment', 'Entertainment', 'Tech', 'Tech'],
                        'store': ['Walmart', 'Dia', 'Walmart', 'Fnac', 'Dia','Walmart'],
                        'price':[11.42, 23.50, 19.99, 15.95, 55.75, 111.55],
                        'testscore': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]})


cats = pd.Series(df['category'][:3]) # 3 elements

df.loc[:3,'testscore'] = cats # Assign first 3

print(df)

你會得到：

        category   price    store      testscore
0       Cleaning   11.42  Walmart       Cleaning
1       Cleaning   23.50      Dia       Cleaning
2  Entertainment   19.99  Walmart  Entertainment
3  Entertainment   15.95     Fnac            NaN
4           Tech   55.75      Dia            NaN
5           Tech  111.55  Walmart            NaN

Answer 2

將fillna與參數limit一起使用：

df['testscore'] = df.testscore.fillna(df.category, limit=3)
df

輸出：

        category   price    store      testscore
0       Cleaning   11.42  Walmart       Cleaning
1       Cleaning   23.50      Dia       Cleaning
2  Entertainment   19.99  Walmart  Entertainment
3  Entertainment   15.95     Fnac            NaN
4           Tech   55.75      Dia            NaN
5           Tech  111.55  Walmart            NaN

替換pandas數據框列中的前n個元素

問題描述

2 個解決方案

解決方案1
2 已采納 2017-12-13 19:01:32

解決方案2
2 2017-12-13 19:06:03

替換pandas數據框列中的前n個元素

問題描述

2 個解決方案

解決方案1 2 已采納 2017-12-13 19:01:32

解決方案2 2 2017-12-13 19:06:03

解決方案1
2 已采納 2017-12-13 19:01:32

解決方案2
2 2017-12-13 19:06:03