簡體   English   中英

html表中的R個特殊字符

[英]R special characters from html tables

我正在研究一個簡單的腳本來從HTML表中抓取數據。 問題是該表包含特殊字符,即使它說已下載為utf-8。

 library(XML)
 webpage.Name <- "http://www.registeruz.sk/cruz-public/domain/financialreport/show/4817607"
 webpage.Name.table <- readHTMLTable(webpage.Name, header=T, which=1,stringsAsFactors=F)

抓取數據的示例:

     V1                                             V2
1  Mimoriadna                                      <NA>
2                                                  <NA>
3  Ă<U+009A>ÄŤtovná jednotka:                     malá
4  DaĹ<U+0088>ovĂ© identifikaÄŤnĂ© ÄŤĂ­slo:      2023790373

我嘗試使用gsub並更改某些模式,但似乎不起作用。 與iconv相同,從utf-8到latin1。 抓取后的數據是否包含特殊字符都沒有關系。

readHTMLTable()使用encoding = "UTF-8"

df <- readHTMLTable(webpage.Name, 
    header = TRUE, which = 1, stringsAsFactors = FALSE, encoding = "UTF-8")
head(df, 4)
#                            V1                          V2
# 1                  Mimoriadna                        <NA>
# 2                                                    <NA>
# 3           Účtovná jednotka:                        malá
# 4 Daňové identifikačné číslo:                  2023790373

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM