如何從網站上抓取 JavaScript 表到 dataframe？

Question

我正在嘗試將 JavaScript 表從網站抓取到 dataframe。湯僅輸出腳本位置，而不輸出對表的訪問權限。 下面給出了 MWE 和湯 output。 我正在嘗試從此處將表格抓取到 dataframe，這可能嗎？如何實現？

MWE

import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) \
                Chrome/72.0.3626.28 Safari/537.36'}
session = requests.Session()
website = session.get('https://iborrowdesk.com', headers=headers, timeout=10)
website.raise_for_status()
soup = BeautifulSoup(website.text, 'lxml')
table = soup.find('table', class_='table table-condensed table-hover')
data = pd.read_html(str(table))[0]

湯output

<html><head><link href="/apple-touch-icon.png" rel="apple-touch-icon" sizes="180x180"/>
<link href="/favicon-32x32.png" rel="icon" sizes="32x32" type="image/png"/>
<link href="/favicon-16x16.png" rel="icon" sizes="16x16" type="image/png"/>
<link href="/site.webmanifest" rel="manifest"/>
<link color="#5bbad5" href="/safari-pinned-tab.svg" rel="mask-icon"/>
<meta content="#da532c" name="msapplication-TileColor"/>
<meta content="#ffffff" name="theme-color"/>
<link href="https://maxcdn.bootstrapcdn.com/bootswatch/3.3.6/flatly/bootstrap.min.css" rel="stylesheet"/>
<meta charset="utf-8"/><meta content="width=device-width,initial-scale=1" name="viewport"/>
<title>IBorrowDesk</title><script src="//cdn.thisiswaldo.com/static/js/9754.js"></script>
</head><body><div class="container"></div><script src="/static/main.bundle.js?39ed89dd02e44899ebb4">
</script></body></html>

Answer 1

您可以使用請求，因為它們公開了 api。

import json

import pandas as pd
import requests


def get_data() -> pd.DataFrame:
    url = "https://iborrowdesk.com/api/most_expensive"

    with requests.Session() as request:
        response = request.get(url, timeout=10)
    if response.status_code != 200:
        print(response.raise_for_status())

    data = json.loads(response.text)

    return pd.json_normalize(data=data["results"])


df = get_data()

Answer 2

正如 Jason Baker 在他的帖子中提到的，您可以使用提供的 API。 或者，您也可以使用 Selenium 來抓取數據。 這個問題（ Python webscraping: BeautifulSoup not showing all html source content ）與你的問題相關。 它解釋了為什么 requests.Session().get(url) 無法檢索 DOM 中的所有元素。 這是因為元素是使用 JavaScript 創建的，所以頁面源代碼 HTML 最初不包含這些元素，它們是使用 JavaScript 插入的。我鏈接的問題還在答案中包含一個代碼片段，我已經更新以匹配你的問題:

from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd

browser = webdriver.Firefox()
browser.get('https://iborrowdesk.com/')
table = browser.find_element(By.TAG_NAME, 'table').get_attribute("outerHTML")
data = pd.read_html(table)[0]
print(data)

如何從網站上抓取 JavaScript 表到 dataframe？

問題描述

2 個解決方案

解決方案1
2 已采納 2022-10-06 04:38:56

解決方案2
0 2022-10-06 06:51:59

如何從網站上抓取 JavaScript 表到 dataframe？

問題描述

2 個解決方案

解決方案1 2 已采納 2022-10-06 04:38:56

解決方案2 0 2022-10-06 06:51:59

解決方案1
2 已采納 2022-10-06 04:38:56

解決方案2
0 2022-10-06 06:51:59