Web 使用 Python 抓取 Javascript 表（帶有網格和列表視圖） - Beautiful Soup

Question

我正在嘗試從該網站的 json 表中解析數據。

url - https://boxes.mysubscriptionaddiction.com/subscription_boxes_for/food 。

我主要需要列出的所有食品訂閱框的名稱、評級和描述。 我在這里面臨一些挑戰。 一是表格有 2 個視圖 - 網格和列表視圖。 我們如何指定我們在代碼中引用的表視圖？ 其次是我得到了一個

ValueError - Timeout value connect was Timeout(connect=<object object at 0x000002767CECD5C0>, 
read=<object object at 0x000002767CECD5C0>, total=None), but it must be an int, float or None.

不知道這意味着什么。
我的代碼：

from pandas.io.html import read_html
from selenium import webdriver
import json
import requests
import os
import sys
from bs4 import BeautifulSoup
import requests


driver = webdriver.Firefox(executable_path='C:\Drivers\geckodriver.exe')

driver.get('https://boxes.mysubscriptionaddiction.com/subscription_boxes_for/food')


table = driver.find_element_by_xpath('/html/body/div[3]/div/span/div[2]/div/div[1]/div[3]/div[3]/table')

table_html = table.get_attribute('innerHTML')

bs = BeautifulSoup(table_html, 'html.parser')

rows = bs.select('tbody tr')

print(bs)

Answer 1

以下是獲取您要查找的數據的方法：（ data是包含信息的字典）

import requests
from bs4 import BeautifulSoup
import json

scrape_url = 'https://boxes.mysubscriptionaddiction.com/subscription_boxes_for/food'

r1 = requests.get(scrape_url)
page = r1.content
soup = BeautifulSoup(page, 'html.parser')
scripts = soup.find_all('script')

data_str = scripts[11].contents[0].strip()
data = json.loads(data_str,strict=False)
print(data['itemListElement'])

Web 使用 Python 抓取 Javascript 表（帶有網格和列表視圖） - Beautiful Soup

問題描述

1 個解決方案

解決方案1
0 2020-08-16 12:00:41

Web 使用 Python 抓取 Javascript 表（帶有網格和列表視圖） - Beautiful Soup

問題描述

1 個解決方案

解決方案1 0 2020-08-16 12:00:41

解決方案1
0 2020-08-16 12:00:41