[英]Webscraping in R: Why does my loop return NA?
我之前在這里發布過同樣的問題,但另一個線程正在消亡,我越來越絕望。
我正在嘗試使用 rvest 等抓取網頁。大多數東西都有效,但現在我需要 R 來循環訪問鏈接列表,而它給我的只是 NA。
這是我的代碼:
install.packages("rvest")
site20min <- read_xml("https://api.20min.ch/rss/view/1")
urls <- site20min %>% html_nodes('link') %>% html_text()
我需要下一個,因為 api 的前兩個鏈接讓我直接回到主頁
urls <- urls[-c(1:2)]
如果我現在打印我的鏈接,它會給我一個包含 109 個鏈接的列表。
urls
現在這是我的循環。 我需要它給我第一個網址鏈接,以便我可以 read_html 它
我正在尋找類似的東西:“ https://beta.20min.ch/story/so-sieht-die-coronavirus-kampagne-des-bundes-aus-255254143692?legacy=true ”。
我使用 break 所以它只顯示第一個鏈接,但我得到的只是 NA。
for(i in i:length(urls)) {
link <- urls[i]
break
}
link
如果我能走到這一步,我想我可以用 rvest 處理剩下的事情,但我已經嘗試了幾個小時,但一無所獲。
謝謝你的幫助。
你可以試試嗎
for(i in 1:length(urls)) {
link <- urls[i]
break
}
link
反而?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.