[英]Python: find all urls which contain string
我試圖在某個域中查找名稱中包含某個字符串的所有頁面。 例如:
www.example.com/section/subsection/406751371-some-string
www.example.com/section/subsection/235824297-some-string
www.example.com/section/subsection/146783214-some-string
最好的方法是什么?
“-some-string”之前的數字可以是任何 9 位數字。 我可以編寫一個腳本來遍歷所有可能的 9 位數字並嘗試訪問生成的 url,但我一直認為應該有一種更有效的方法來做到這一點,尤其是因為我知道總體上只有大約 1000 個可能以該字符串結尾的頁面。
我理解你的情況, -some-string 之前的數值是該網站的一種對象 id(例如,這個問題的 id 為 39594926,url 為 stackoverflow.com/questions/ 39594926 /python- find-全部 urls-which-contain-string)
我認為沒有辦法找到所有有效數字,除非您有該網站的列表(或父級)頁面列出了所有這些數字。 再次以Stackoverflow為例,在問題列表頁面中,您將看到所有這些問題ID。
如果你能給我提供網站,我可以看看嘗試找到這些數字的“模式”。 對於一些簡單的網站,該數字只是用於識別對象(可以是用戶、問題或其他任何內容)的增量。
如果這些文章都鏈接到一個頁面上,您可以解析此索引頁面的 html,因為所有鏈接都將包含在 href 標簽中。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.