簡體   English   中英

Python:查找包含字符串的所有網址

[英]Python: find all urls which contain string

我試圖在某個域中查找名稱中包含某個字符串的所有頁面。 例如:

www.example.com/section/subsection/406751371-some-string 
www.example.com/section/subsection/235824297-some-string 
www.example.com/section/subsection/146783214-some-string

最好的方法是什么?

“-some-string”之前的數字可以是任何 9 位數字。 我可以編寫一個腳本來遍歷所有可能的 9 位數字並嘗試訪問生成的 url,但我一直認為應該有一種更有效的方法來做到這一點,尤其是因為我知道總體上只有大約 1000 個可能以該字符串結尾的頁面。

我理解你的情況, -some-string 之前的數值是該網站的一種對象 id(例如,這個問題的 id 為 39594926,url 為 stackoverflow.com/questions/ 39594926 /python- find-全部 urls-which-contain-string)

我認為沒有辦法找到所有有效數字,除非您有該網站的列表(或父級)頁面列出了所有這些數字。 再次以Stackoverflow為例,在問題列表頁面中,您將看到所有這些問題ID。

如果你能給我提供網站,我可以看看嘗試找到這些數字的“模式”。 對於一些簡單的網站,該數字只是用於識別對象(可以是用戶、問題或其他任何內容)的增量。

如果這些文章都鏈接到一個頁面上,您可以解析此索引頁面的 html,因為所有鏈接都將包含在 href 標簽中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM