从 csv 中删除冗余时间戳

Question

我使用 pandas DataFrame 从不同传感器的记录中创建了 CSV 文件。 CSV 文件基本上是这样的：

我想摆脱多余的时间戳，而是让所有共享时间戳的传感器条目出现在同一行中（例如图像中的 x2 和 x3）。 此外，共享时间戳的标签始终相同，但也需要减少。

到目前为止，我遇到了drop_duplicate() function ，它只删除整行。

编辑：这是上面示例的文本版本：

timestamp,sensor_a,sensor_b,sensor_c,label
1,x1,,,0
2,,x2,,0
2,,,x3,0
3,x4,,,1
4,,,,1
5,,x6,,1
5,,,x7,1

Answer 1

我将假设您将数据存储在文本文件sensors.txt中，因此我们根据以下代码根据timestamp合并数据

import pandas as pd

df = pd.read_csv('sensors.txt', delimiter=',', header=0)

df2 = df.groupby('timestamp').ffill()
df2['timestamp'] = df['timestamp']
df2 = df2.groupby('timestamp').bfill()
df2['timestamp'] = df['timestamp']
df2 = df2.drop_duplicates()

df = df2[['timestamp', 'sensor_a', 'sensor_b', 'sensor_c', 'label']]
print(df)

output

   timestamp sensor_a sensor_b sensor_c  label
0          1       x1      NaN      NaN      0
1          2      NaN       x2       x3      0
3          3       x4      NaN      NaN      1
4          4      NaN      NaN      NaN      1
5          5      NaN       x6       x7      1

进一步的编辑将基于您在下面的评论中的问题

祝你好运

从 csv 中删除冗余时间戳

问题描述

1 个解决方案

解决方案1
1 已采纳 2021-01-03 17:58:40

从 csv 中删除冗余时间戳

问题描述

1 个解决方案

解决方案1 1 已采纳 2021-01-03 17:58:40

解决方案1
1 已采纳 2021-01-03 17:58:40