簡體   English   中英

美麗的湯返回空的html

[英]Beautiful Soup returning empty html

所以這是我關於美麗湯的第二個問題(對不起,我是初學者)

我試圖從此網站獲取數據:

https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/

我的代碼:

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = uReq(url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "lxml")

print(page_soup)

但是由於某種原因,它返回一個空字符串。

我一直在尋找類似的線程,顯然它與使用外部api的網站有關,但該網站沒有。

網站網絡

似乎響應的內容類型為gzip,因此您需要先處理該內容,然后才能處理html響應。

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import gzip

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = uReq(url)
page_html = gzip.decompress(uClient.read())
uClient.close()
page_soup = soup(page_html, "lxml")
print(page_soup)

嘗試使用requests模塊

例如:

import requests
from bs4 import BeautifulSoup as soup

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = requests.get(url)
page_soup = soup(uClient.text, "lxml")
print(page_soup)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM