簡體   English   中英

使用 Python 從 URL 刮取子文件

[英]Scraping subfiles from URL using Python

我想抓取的網頁包含幾個文件:

網頁

我有興趣只抓取突出顯示的文件,即:mboxFrame。

我的頁面抓取方法

import requests
from bs4 import BeautifulSoup

webPage = requests.get(URL, verify=False)

soup = BeautifulSoup(webPage.content, "html.parser" )

只能抓取文件mail.html 有沒有辦法只我想要的東西?

我將不勝感激任何提示或提示。

從服務器打開文件的方法是使用 URL 請求它。 事實上,在世界范圍內 web 的開始,這是獲取內容的唯一方法:內容創建者將各種文件放在服務器上,客戶端將打開或下載這些文件。 URI 和參數的動態處理是后來的發明。 這就是為什么評論者要求您使用 URL。 我們希望查看它並進行相應修改,以幫助您查看需要更改哪些部分才能獲取該特定文件。 您可以省略密碼,或將其替換為其他字符串。

通常,您想要的文件將在您使用的 url 下,但以文件名結尾。 如果 startong URL 是www.example.com/mail/ ,那么這個文件將在www.example.com/mail/mbox.msc

請注意,任何參數都應遵循路徑,因此www.example.com/mail?user=hendrra&password=hendras_password會變成www.example.com/mail/mbox.msc?user=hendrra&password=hendras_password

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM