[英]grouped data analysis in python with pandas
我有一個大的數據框。 時間之一是列(只是表示秒的整數)。 我想做一個groupBy,其中每個組代表2秒鍾的數據。 這樣做可以讓我用一行代碼在所有組上使用std或mean函數。 目的是能夠丟棄不符合特定條件的數據的時間增量。 以下偽代碼有望代表我想要做的事情。 請原諒我的粗心,因為我剛接觸熊貓。
grouped = df.groupBy(df['time']) #grouped for say 2 second increments.
groupStd = grouped.std()
df.drop( items in group where groupStd> val)
convert back to dataframe after the rows have been removed.
如果有人可以幫助我填補空白,那將非常有幫助。 謝謝!
你可以試試 :
import pandas as pd
df = pd.DataFrame([[22, 18], [21, 23], [20, 17], [23, 45]], columns=['time', 'value'])
def sub_group_hash(x):
return (x / 2).astype(int) * 2
grouped = df.drop('time', axis=1).groupby(sub_group_hash(df['time']))
groupStd = grouped.mean()
print groupStd
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.