繁体 English 中英

确定带宽数据中的“噪声”

[英]Determining “noise” in bandwidth data

原文 2019-03-26 17:57:47 4 1 python/ r/ statistics

我有带宽数据，可以按吨位和小时识别协议使用情况。 根据这些协议，你可以知道什么时候只是连接vs实际使用（1000比特，相比于百万或数十亿比特），在那个小时内该特定协议。 问题是在查看每个协议时，它们都是严重偏斜的。 80％的记录是刚刚连接的，或者我称之为“噪音”。

我的任务是分离出这种噪音，并只在实际使用协议时关注。 我的同学们都只是手动执行此操作并在低阈值时删除。 我希望有一种方法可以自动化这个并使用统计数据而不是仅选择一个“看起来不错”的阈值。 我们有30个不同的协议，每个协议具有不同的位数，表示“噪声”，即下载原型可能有1000位，其中消息传递应用程序在连接但可能没有完全使用时可能有75位。 同样，他们将有不同的手段和差距，即下载平均值为215,000,000，消息传递为5,000,000。 它们之间没有任何固定模式。

此“噪音”也有许多连接，但只占所用总带宽的1-3％，这就是为什么我们的任务是识别实际使用与被动使用。

我不想要任何实际的代码，因为我想练习自己的实现和解决方案。 但统计方法的逻辑，过程或名称将非常有用。

1 个解决方案

你有标签示例，除了带宽还有其他数据吗？ 一种方法是训练某种ML分类器，如果你有相当数量的数据，你知道它正在使用或不使用。 如果您有足够的数据，您也可以无人监督地执行此操作。 首先，简单的Naive Bayes分类器适用于二进制解决方案。 正如您可能离开的那样，NB是垃圾邮件检测的原始基础（是垃圾邮件还是垃圾邮件）。 所以你的情况是噪音与否也应该有效，但如果除了带宽之外你还有其他数据，你将获得更强大的结果。 另外，我想知道是否没有办法改善帖子的标题，以便更快地传达您的问题。