將 Javascript 呈現的網頁內容讀入 R

Question

我正在嘗試將以下網頁的內容（如瀏覽器的 Inspect Element 工具中所示）讀入 R：

由於內容顯然是 Javascript 渲染的，因此無法使用常見的 web 抓取函數（如來自xml2 read_html的 read_html）來檢索內容。 我遇到了以下建議使用rvest和V8包的帖子，但我無法解決我的問題：

https://datascienceplus.com/scraping-javascript-rendered-web-content-using-r/

我在 Stack Overflow 上也看到了非常相似的問題（比如this和this ），但是這些問題的答案（隱藏的 api 解決方案和 Network 選項卡中的 Request URL ）對我不起作用。

對於初學者，我有興趣閱讀列表中人員的公共 ID（ div.user-nickname節點）。 我的猜測是，要么我錯誤地指定了節點，要么網站根本不允許 web 抓取。

任何幫助將不勝感激。

Answer 1

數據來自返回 json 的 API 調用。 您可以發出相同的 GET 請求，然后提取用戶名。 將x$UserName與x$CustomerId交換為 id。

library(jsonlite)

data <- jsonlite::read_json('https://www.etoro.com/sapi/rankings/rankings/?activeweeksmin=24&blocked=false&bonusonly=false&copiersmax=5000&copyblock=false&copyinvestmentpctmax=0&copytradespctmax=0&dailyddmin=-10&displayfullname=true&gainmax=100&gainmin=5&hasavatar=true&highleveragepctmax=10&isfund=false&istestaccount=false&lastactivitymax=14&longpospctmax=80&lowleveragepctmin=50&maxdailyriskscoremax=5&maxmonthlyriskscoremax=5&maxmonthlyriskscoremin=1&optin=true&page=1&pagesize=20&period=OneYearAgo&profitableweekspctmin=50&sort=-gain&tradesmin=20&verified=true&weeklyddmin=-20&winratiomax=85')

users <- lapply(data$Items, function(x) {x$UserName})

將 Javascript 呈現的網頁內容讀入 R

問題描述

1 個解決方案

解決方案1
0 已采納 2021-04-18 18:19:41

將 Javascript 呈現的網頁內容讀入 R

問題描述

1 個解決方案

解決方案1 0 已采納 2021-04-18 18:19:41

解決方案1
0 已采納 2021-04-18 18:19:41