使用 Python 從 URL 刮取子文件

Question

我想抓取的網頁包含幾個文件：

我有興趣只抓取突出顯示的文件，即：mboxFrame。

我的頁面抓取方法

import requests
from bs4 import BeautifulSoup

webPage = requests.get(URL, verify=False)

soup = BeautifulSoup(webPage.content, "html.parser" )

只能抓取文件mail.html 。 有沒有辦法只刮我想要的東西？

我將不勝感激任何提示或提示。

Answer 1

從服務器打開文件的方法是使用 URL 請求它。 事實上，在世界范圍內 web 的開始，這是獲取內容的唯一方法：內容創建者將各種文件放在服務器上，客戶端將打開或下載這些文件。 URI 和參數的動態處理是后來的發明。 這就是為什么評論者要求您使用 URL。 我們希望查看它並進行相應修改，以幫助您查看需要更改哪些部分才能獲取該特定文件。 您可以省略密碼，或將其替換為其他字符串。

通常，您想要的文件將在您使用的 url 下，但以文件名結尾。 如果 startong URL 是www.example.com/mail/ ，那么這個文件將在www.example.com/mail/mbox.msc 。

請注意，任何參數都應遵循路徑，因此www.example.com/mail?user=hendrra&password=hendras_password會變成www.example.com/mail/mbox.msc?user=hendrra&password=hendras_password

使用 Python 從 URL 刮取子文件

問題描述

1 個解決方案

解決方案1
0 2019-10-25 20:38:41

使用 Python 從 URL 刮取子文件

問題描述

1 個解決方案

解決方案1 0 2019-10-25 20:38:41

解決方案1
0 2019-10-25 20:38:41