簡體   English   中英

R 中的網頁抓取:為什么我的循環返回 NA?

[英]Webscraping in R: Why does my loop return NA?

我之前在這里發布過同樣的問題,但另一個線程正在消亡,我越來越絕望。

我正在嘗試使用 rvest 等抓取網頁。大多數東西都有效,但現在我需要 R 來循環訪問鏈接列表,而它給我的只是 NA。

這是我的代碼:

install.packages("rvest")

site20min <- read_xml("https://api.20min.ch/rss/view/1")

urls <- site20min %>% html_nodes('link') %>% html_text()

我需要下一個,因為 api 的前兩個鏈接讓我直接回到主頁

urls <- urls[-c(1:2)]

如果我現在打印我的鏈接,它會給我一個包含 109 個鏈接的列表。

urls

現在這是我的循環。 我需要它給我第一個網址鏈接,以便我可以 read_html 它

我正在尋找類似的東西:“ https://beta.20min.ch/story/so-sieht-die-coronavirus-kampagne-des-bundes-aus-255254143692?legacy=true ”。

我使用 break 所以它只顯示第一個鏈接,但我得到的只是 NA。

for(i in i:length(urls)) {
  link <- urls[i]
  break
} 
link

如果我能走到這一步,我想我可以用 rvest 處理剩下的事情,但我已經嘗試了幾個小時,但一無所獲。

謝謝你的幫助。

你可以試試嗎

for(i in 1:length(urls)) {
  link <- urls[i]
  break
} 
link

反而?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM