Pandas Pivot_Table分組值

Question

我在CSV（數據集）上有大量數據。 我想創建一個pd.pivot_table來按郵政編碼對數據進行匯總，但是，我的數據包含共享相同郵政編碼的行。

df = pd.read_csv('15zpallagi.csv')
df['A00100'] = df['A00100'].map('{:,.2f}'.format)
df.pivot_table(values='A00100', index='zipcode', aggfunc='sum')

當我運行上面的代碼以創建數據透視表時，值列包含多個值，就像它堆疊在具有多個值的總和上一樣。

但是，如果運行以下代碼，則將獲得相同的值，但格式可以理解。

df.pivot_table(values='A00100', index='zipcode',columns='agi_stub', aggfunc='sum')

如何創建僅添加列A00100並通過郵政編碼提供總計的數據透視表？

Answer 1

您可能會看到這些不一致之處，因為此行df['A00100'] = df['A00100'].map('{:,.2f}'.format)將A00100列轉換為字符串類型，而不是浮點數。

注釋掉第二行，然后重試，看是否能解決問題。

如果您需要將數字格式化為僅顯示2個小數，請在所有轉換之后執行此操作。

如果由於其他原因（有效數字等）而四舍五入，請使用Dataframe.round函數而不是字符串格式。