繁体   English   中英

Matplotlib - 时间序列分析 Python

[英]Matplotlib - Time Series Analysis Python

我正在尝试使用此数据创建 2 种类型的时间序列( https://gist.github.com/datomnurdin/33961755b306bc67e4121052ae87cfbc )。 首先每天计数多少。 每天第二总情绪。

每天第二总情绪的代码。

import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('data_filtered.csv', parse_dates=['date'], index_col='date')

def plot_df(df, x, y, title="", xlabel='Date', ylabel='Value', dpi=100):
    plt.figure(figsize=(16,5), dpi=dpi)
    plt.plot(x, y, color='tab:red')
    plt.gca().set(title=title, xlabel=xlabel, ylabel=ylabel)
    plt.show()

plot_df(df, x=df.index, y=df.sentiment, title='Sentiment Over Time')

第二个时间序列图对我来说似乎没有任何意义。 也可以保存该图以供将来参考。

在此处输入图像描述

尝试检查源数据。


日期

如果我尝试 plot 使用以下代码分配date

import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('data_filtered.csv', parse_dates = ['date'])

df['date'].hist()
plt.show()

我得到:

在此处输入图像描述

如您所见,大多数date值都集中在2020-05-192020-05-30左右,两者之间没有任何关系。 因此,仅在图表的左侧和右侧而不是在中间查看点是有意义的。


情绪

如果我尝试使用以下代码对 plot 进行sentiment分布:

import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('data_filtered.csv', parse_dates = ['date'])

df['sentiment'].hist()
plt.show()

我得到:

在此处输入图像描述

如您所见, sentiment值集中在三组1 -10 没有其他价值。 因此,仅在图形的底部、中心和顶部查看点是有意义的,而不是其他任何地方。


散点图

最后,我尝试将datesentiment组合在一个散点 plot 中:

import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('data_filtered.csv', parse_dates = ['date'])

fig, ax = plt.subplots(1, 1, figsize = (16, 5))

ax.plot(df['date'], df['sentiment'], 'o', markersize = 15)
ax.set_title('Sentiment Over Time')
ax.set_xlabel('Date')
ax.set_ylabel('Value')

plt.show()

我得到:

在此处输入图像描述

这正是您的图表,但这些点没有通过线连接。 您可以看到这些值是如何集中在特定区域而不是分散的。


累积

如果要按date聚合sentiment值,请检查以下代码:

import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('data_filtered.csv', parse_dates = ['date'])

df_cumulate = df.groupby(['date']).sum()

def plot_df(df, x, y, title="", xlabel='Date', ylabel='Value', dpi=100):
    plt.figure(figsize=(16,5), dpi=dpi)
    plt.plot(x, y, color='tab:red')
    plt.gca().set(title=title, xlabel=xlabel, ylabel=ylabel)
    plt.savefig('graph.png')
    plt.show()

plot_df(df_cumulate, x=df_cumulate.index, y=df_cumulate.sentiment, title='Sentiment Over Time')

我通过df = pd.read_csv('data.csv', parse_dates = ['date'])行聚合数据; 这里是sentiment随时间累积的 plot:

在此处输入图像描述

您链接到的数据有八个不同的日期。

如果您只是复制/粘贴,则日期不会被解释为时间点,而是被解释为字符串。

您可以通过转换为日期时间对象来更改它:

#convert to datetime
df['date'] = pd.to_datetime(df['date'])

plot 之间的连接来自一个事实,即 a 数据点的索引决定了它何时被绘制,但它的 x 坐标值(这里:日期)决定它的绘制位置。 由于 plt.plot 是一种连接数据点的方法,因此一个接一个地绘制的数据点将用一条线连接起来,而不管它们最终会在哪里结束。 您可以通过对数据进行排序来对齐时间点和 position:

#then sort by date
df.sort_values(by='date', inplace=True)

这并不构成易于解释的 plot,但现在至少您知道哪些行来自哪里:

在此处输入图像描述

绘制数据的更好方法是堆积条形图:

a=df.groupby(['date', 'sentiment']).agg(len).unstack()
a.columns = ['-1', '0', '1']
a[['-1', '0', '1']].plot(kind='bar', stacked=True)

在此处输入图像描述

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM