繁体 English 中英

使用重叠在 0 到 100 之间缩放的两个集合之间进行转换

[英]Converting between two sets scaled between 0 and 100 using overlap

原文 2022-05-20 23:40:07 4 1 algorithm/ go/ stream/ google-trends

我正在尝试缩放每 10 分钟按分钟接收的谷歌趋势数据。 如果您不熟悉谷歌趋势，每个响应都会根据当前响应中的最小值和最大值在 0 到 100 之间缩放。 因此，针对不同但重叠的时间间隔的两个不同请求可以针对同一时间具有不同的值（即，从 4:30-5:30 的请求和针对 5-6 的请求可能具有不同的 5 值）。

我试图做的是相对于我收集趋势数据的前 4 小时间隔缩放所有值。 每 10 分钟，将收集一个新的 4h 块，这意味着大部分时间将与前一个块重叠。 是否可以利用这种重叠来缩放相对于第一个间隔的所有新值？

注意：新值可以是 gt 100

1 个解决方案

假设您最初的四小时 window 和任何经过扩展过程的数据都是“好”的。

假设我们的好数据在时间 T 结束，我们有一个新的 4 小时 window 数据在时间 T+10 结束。

我们新的 window 中的数据和好的数据之间的唯一区别是比例因子。 新的 window 与良好数据有共同之处的每一分钟都可以为我们需要使新数据“良好”的比例因子投票：比例因子 =（良好值）/（新值）。

通常我会使用投票的中位数来做这样的事情，但是因为数据太粗糙了，所以你面临数据中存在“悬崖”的风险，特别是中位数可能紧挨着一个明显更大或较小的数字。 出于这个原因，我建议通过消除两个方向上的 k 个异常值，然后取剩余选票的平均值来生成选票的比例因子。

如果你想要更多的选票，你可以让他们离开不相邻的 4 小时区块（虽然显然回报有限）。

- - 例子 - -

假设在最初的 window 中，峰值搜索是 1000。这意味着 window 的比例因子是 0.10，这将导致谷歌向我们显示的峰值搜索为 100。

在下一个 window 中，我们有一个新的峰值 2000。现在，这些峰值对我们来说是不可见的，但我们确实看到两个 windows 中存在的每个点在新的 window 中的值是旧的 window 中的一半。由于投票（如上所述）是（良好价值）/（新价值），我们有一堆接近 2.0 的投票（由于粗糙和四舍五入，接近不准确）。

因此，我们将 10 个新值中的每一个乘以 2.0 以将它们转换为良好的比例。 零值不变，因为无论规模如何，没有搜索就是没有搜索。