簡體   English   中英

使用重疊在 0 到 100 之間縮放的兩個集合之間進行轉換

[英]Converting between two sets scaled between 0 and 100 using overlap

我正在嘗試縮放每 10 分鍾按分鍾接收的谷歌趨勢數據。 如果您不熟悉谷歌趨勢,每個響應都會根據當前響應中的最小值和最大值在 0 到 100 之間縮放。 因此,針對不同但重疊的時間間隔的兩個不同請求可以針對同一時間具有不同的值(即,從 4:30-5:30 的請求和針對 5-6 的請求可能具有不同的 5 值)。

我試圖做的是相對於我收集趨勢數據的前 4 小時間隔縮放所有值。 每 10 分鍾,將收集一個新的 4h 塊,這意味着大部分時間將與前一個塊重疊。 是否可以利用這種重疊來縮放相對於第一個間隔的所有新值?

注意:新值可以是 gt 100

假設您最初的四小時 window 和任何經過擴展過程的數據都是“好”的。

假設我們的好數據在時間 T 結束,我們有一個新的 4 小時 window 數據在時間 T+10 結束。

我們新的 window 中的數據和好的數據之間的唯一區別是比例因子。 新的 window 與良好數據有共同之處的每一分鍾都可以為我們需要使新數據“良好”的比例因子投票:比例因子 =(良好值)/(新值)。

通常我會使用投票的中位數來做這樣的事情,但是因為數據太粗糙了,所以你面臨數據中存在“懸崖”的風險,特別是中位數可能緊挨着一個明顯更大或較小的數字。 出於這個原因,我建議通過消除兩個方向上的 k 個異常值,然后取剩余選票的平均值來生成選票的比例因子。

如果你想要更多的選票,你可以讓他們離開不相鄰的 4 小時區塊(雖然顯然回報有限)。

- - 例子 - -

假設在最初的 window 中,峰值搜索是 1000。這意味着 window 的比例因子是 0.10,這將導致谷歌向我們顯示的峰值搜索為 100。

在下一個 window 中,我們有一個新的峰值 2000。現在,這些峰值對我們來說是不可見的,但我們確實看到兩個 windows 中存在的每個點在新的 window 中的值是舊的 window 中的一半。由於投票(如上所述)是(良好價值)/(新價值),我們有一堆接近 2.0 的投票(由於粗糙和四舍五入,接近不准確)。

因此,我們將 10 個新值中的每一個乘以 2.0 以將它們轉換為良好的比例。 零值不變,因為無論規模如何,沒有搜索就是沒有搜索。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM