读取文本文件：read.table与read_table

Question

我正在从该网页中将文本文件读取到R中。如果使用read.table读取此数据，则数据将被正确解析，并且可以获得所有12个月的数据：

url <- "http://academic.udayton.edu/kissock/http/Weather/gsod95-current/OHCINCIN.txt"

temp_df1 <- read.table(url,
                       col.names = c("Month", "Day", "Year", "Avg_Temp"),
                       na = "-99")

head(temp_df1)
Month Day Year Avg_Temp
1     1   1 1995     41.1
2     1   2 1995     22.2
3     1   3 1995     22.8
4     1   4 1995     14.9
5     1   5 1995      9.5
6     1   6 1995     23.8

unique(temp_df1$Month)
[1]  1  2  3  4  5  6  7  8  9 10 11 12

但是，如果我使用read_table读取此数据，则将首先显示它已正确解析。 但是，两位数字月份代码（10、11、12）被剥离，以便仅解析第一位数字。

temp_df2 <- read_table(url,
                       col_names = c("Month", "Day", "Year", "Avg_Temp"),
                       na = "-99")

head(temp_df2)
# A tibble: 6 × 4
  Month   Day  Year Avg_Temp
  <int> <int> <int>    <dbl>
1     1     1  1995     41.1
2     1     2  1995     22.2
3     1     3  1995     22.8
4     1     4  1995     14.9
5     1     5  1995      9.5
6     1     6  1995     23.8

unique(temp_df2$Month)
[1] 1 2 3 4 5 6 7 8 9

数据的维度是相同的； 但是，我无法弄清楚如何使用read_table导入数据以保留完整的Month编码。

dim(temp_df1)
[1] 7963    4

dim(temp_df2)
[1] 7963    4

Answer 1

由于LukeA的评论中提到的问题， read_table无法正常工作。 相反，您应该使用read_fwf函数并指定字段长度以避免此问题。

temp_df2 <- read_fwf(url, 
    col_positions = fwf_widths(c(14, 14, 13, 4), col_names = c("Month", "Day", "Year", "Avg_Temp")))

请记住，对于read_fwf ， col_names作为参数传递给fwf_widths而不是read_fwf本身。

此外，使用read_fwf甚至可以跳过一个步骤，并在读取Date时将日期解析为Date对象：

temp_df2 <- read_fwf(url,
                  col_positions = fwf_widths(c(41, 4),
                                             col_names = c("date", "Avg_Temp")), 
                  col_types = cols(col_date("%m %d %Y"), col_number()))

读取文本文件：read.table与read_table

问题描述

1 个解决方案

解决方案1
2 已采纳 2016-10-28 15:40:18

读取文本文件：read.table与read_table

问题描述

1 个解决方案

解决方案1 2 已采纳 2016-10-28 15:40:18

解决方案1
2 已采纳 2016-10-28 15:40:18