繁体   English   中英

错误:当前工作目录中不存在“NA”(Webscraping)

[英]Error: 'NA' does not exist in current working directory (Webscraping)

我正在尝试从以下网址抓取数据: https : //university.careers360.com/colleges/list-of-degree-colleges-in-India我想点击每个大学名称并获取特定数据每个学院。

首先我所做的是在一个向量中收集所有大学网址:

#loading the package:
library(xml2)
library(rvest)
library(stringr)
library(dplyr)

#Specifying the url for desired website to be scrapped
baseurl <- "https://university.careers360.com/colleges/list-of-degree-colleges-in-India"

#Reading the html content from Amazon
basewebpage <- read_html(baseurl)

#Extracting college name and its url
scraplinks <- function(url){
   #Create an html document from the url
   webpage <- xml2::read_html(url)
   #Extract the URLs
   url_ <- webpage %>%
   rvest::html_nodes(".title a") %>%
   rvest::html_attr("href")  
   #Extract the link text
   link_ <- webpage %>%
   rvest::html_nodes(".title a") %>%
   rvest::html_text()
   return(data_frame(link = link_, url = url_))
}

#College names and Urls
allcollegeurls<-scraplinks(baseurl)

现在工作正常,但是当我为每个 url 使用 read_html 时,它显示错误。

#Reading the each url
for (i in allcollegeurls$url) {
  clgwebpage <- read_html(allcollegeurls$url[i])
}

错误:当前工作目录中不存在“NA”(“C:/Users/User/Documents”)。

我什至使用了 'break' 命令,但仍然出现相同的错误-:

#Reading the each url
for (i in allcollegeurls$url) {
  clgwebpage <- read_html(allcollegeurls$url[i])
  if(is.na(allcollegeurls$url[i]))break
}

请帮忙。

根据要求发布所有大学网址的 str-:

> str(allcollegeurls)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   30 obs. of  2 variables:
 $ link: chr  "Netaji Subhas Institute of Technology, Delhi" "Hansraj 
College, Delhi" "School of Business, University of Petroleum and Energy 
Studies, D.." "Hindu College, Delhi" ...
 $ url : chr  "https://www.careers360.com/university/netaji-subhas- 
 university-of-technology-new-delhi" 
"https://www.careers360.com/colleges/hansraj-college-delhi" 
"https://www.careers360.com/colleges/school-of-business-university-of- 
 petroleum-and-energy-studies-dehradun" 
"https://www.careers360.com/colleges/hindu-college-delhi" ...

这项工作

purrr::map(allcollegeurls$url, read_html)

map函数:map函数通过将函数应用于每个元素并返回与输入长度相同的向量来变换其输入。 我爱避免for在使用R.

我今天的数据几乎面临同样的问题。 请从 url 中删除任何NA

在我的情况下,错误是

错误:“ ”在当前工作目录中不存在。

我从应用该函数的列中删除了空白并且它起作用了。 上面的错误表明存在无法应用该功能的NA

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM