簡體   English   中英

檢索給定URL的最受歡迎的GET參數變體列表?

[英]Retrieve a list of the most popular GET param variations for a given URL?

我正在圍繞鏈接傳播構建情報,並且由於我需要處理許多短URL服務,而這些服務需要從確切URL地址進行反向查找,因此我需要能夠解析同一URL的多個近似版本。

例如,URL為http://www.example.com?ref=affil&hl=zh-CN&ct=0

當然,在某些情況下更改GET參數可以引用完全不同的頁面,尤其是當所涉及的GET參數引用配置文件或內容ID時。

但是快速分析頁面將很快確定頁面之間的相似程度。 使用一點機器學習,就可以快速弄清楚哪些GET參數不會影響給定站點返回的頁面的內容。

我假設只能通過Google或Yahoo(或Twitter)之類的網站來提供發送URL並獲取非常相似的URL列表的服務,但它們似乎沒有提供此功能,而且我沒有找到了其他的服務。

如果您知道以上述方式將幾乎相同的URL組聚集在一起的任何服務,請告訴我。

我的賞金是一個擁抱。

每個URL都類似於Internet上數據位置的“地址”。 URL的“主機”部分(在您的示例中為“ www.example.com”)是一個Web服務器,或者是世界上某個地方的一組Web服務器。 如果我們將URL視為“地址”,則主機可能是“國家”。

該國本身可能會跟蹤進入它的每封郵件。 有些會,有些不會。 我說的是網絡服務器! 當然,真實國家不會記下您收到的每一封郵件! :-)

但是,即使該“國家”跟蹤了每封郵件-我真的懷疑他們是否有任何機制可以將該列表發送給您。

至於那些可能會自己收獲的組織,我認為最好的選擇是谷歌,但即使在那里情況也相當嚴峻。 您會看到,因為Google並不是世界上每個Web服務器(“國家”)的所有者,所以他們無法知道訪問該Web服務器的每個URL。

但是他們可以做相反的事情。 由於他們可以索引遇到的每個頁面,因此他們可以很好地了解網絡上公共HTML頁面中出現的每個URL。 當然,這不包括人們在聊天,SMS或電子郵件中互相發送的URL。 但是,他們仍然可以很好地了解存在哪些URL。

我想我想說的是,您要找的東西確實不存在。 獲取所有用於訪問單個網站的URL的唯一方法就是成為該網站的所有者

不好意思,朋友。

聽起來您需要在頁面之間創建某種離散的相似度等級。 可以通過找到兩頁之間相似字的數量並將該值歸一化為有界范圍,然后將該范圍的某些部分映射到不同的相似度等級來完成。

您還需要為每對配對比較它們共有的GET參數或它們之間的接近程度。 該信息將成為定義您的每個實例的屬性(存儲在上述等級旁邊)。 積累了數百對比較之后,您可能可以選擇一些特征子集來標識GET參數,該參數最多可以識別兩個頁面的相似程度。

當然,最終可能根本找不到任何有用的東西,因為此數據集可能包含大量噪聲。

如果您對這種方法感興趣,則應大致了解Infogain和功能子集選擇。 這是指向我的教授講義的鏈接,該講義可能會派上用場。 http://stuff.ttoy.net/cs591o/FSS.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM