簡體   English   中英

將 HTML 文件導入 R

[英]Importing an HTML File into R

我需要將本地 HTML 文件導入 R。

我想對我的企業 Facebook 頁面上發布的帖子進行情緒分析,並將所有必要的數據下載為一系列 HTML 文件。 我之前進行過類似的分析,但數據始終存儲為 CSV 或 Excel 文件。 我是處理 HTML 數據的新手。

library(XML)
library(rvest)

read_html("posts_1", skip = 0, remove.empty = TRUE, trim = TRUE, ...)

read_html("posts_1", skip = 0, remove.empty = TRUE, trim = TRUE, ...)

我已經嘗試了 read_html 函數和 readLines 函數,但這些似乎都不起作用。 我收到以下錯誤消息:

文件錯誤(con,“r”):無法打開連接

另外: 警告信息:

在文件(con,“r”)中:無法打開文件“posts_1”:沒有這樣的文件或目錄

錯誤:“...”在不正確的上下文中使用

值得注意的是,這是一個相當大的文件( 16,422 KB ),所以我不知道這是否會阻止數據加載。

install.packages("rvest")
install.packages("dplyer")
library(rvest)
library(dplyr)

#--------------------------------------
# Character version
#--------------------------------------
# Define your html path - local file
your_html <- read_html("C:/folder/file.html")

# Define your CSS selector inside html_nodes
names <- your_html %>% html_nodes("h2") %>% html_text()
urls <- your_html %>% html_nodes(".link") %>% html_text()

# Enjoy your characters
names
urls

#--------------------------------------
# Dataframe version
#--------------------------------------
# Define your html path - local file
your_html <- read_html("C:/folder/file.html")

# Define your CSS selectors inside html_nodes
names <- your_html %>% html_nodes("h2") %>% html_text()
urls <- your_html %>% html_nodes(".link") %>% html_text()

# Enjoy your data frame
df <- data.frame(names, urls)

#--------------------------------------
# Using website url-s
#--------------------------------------
# Define your html path - URL
your_html <- read_html("https://www.example.com")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM