繁体   English   中英

HTML内容的文件压缩和存储

[英]File compression for and storing of HTML content

对于通过R检索的HTML内容,我想知道关于这两个方面我有哪些(其他)选项

  1. 将内容保存到磁盘时的文件压缩(最大压缩率/最小文件大小;压缩所需的时间是次要的)

  2. 最有效地存储内容(通过任何方式,OS文件系统或DBMS)

我目前的发现是gzfile在R中提供了最佳的压缩率。我能做得更好吗? 例如,我尝试在保存之前消除HTML代码中不必要的空间,但是gzfile似乎已经解决了这一问题,因为gzfile ,我最终并没有获得较小的文件大小。

扩展好奇心问题:

搜索引擎如何处理此问题? 还是他们在索引被索引后就立即丢弃了代码,因此与他们无关的东西吗?


插图

获取示例HTML代码:

url_current <- "http://cran.at.r-project.org/web/packages/available_packages_by_name.html"
html <- readLines(url(url_current))

保存到磁盘:

path_txt        <- file.path(tempdir(), "test.txt")
path_gz         <- gsub("\\.txt$", ".gz", path_txt)
path_rdata      <- gsub("\\.txt$", ".rdata", path_txt)
path_rdata_2    <- gsub("\\.txt$", "_raw.rdata", path_txt)

write(html, file=path_txt)
write(html, file=gzfile(path_gz, "w"))
save(html, file=path_rdata)

html_raw <- charToRaw(paste(html, collapse="\n"))
save(html_raw, file=path_rdata_2)

尝试删除不必要的空格:

html_2  <- gsub("(>)\\s*(<)", "\\1\\2",html)
path_gz_2   <- gsub("\\.txt$", "_2.gz", path_txt)
write(html_2, gzfile(path_gz_2, "w"))
html_2  <- gsub("\\n", "", html_2)
path_gz_3   <- gsub("\\.txt$", "_3.gz", path_txt)
write(html_2, gzfile(path_gz_3, "w"))

产生的文件大小:

files   <- list.files(dirname(path_txt), full.names=TRUE)
fsizes  <- file.info(files)$size
names(fsizes) <- sapply(files, basename)

> fsizes
       test.gz     test.rdata       test.txt      test_2.gz      test_3.gz 
        164529         183818         849647         164529         164529 
test_raw.rdata 
        164608 

检查已处理的HTML代码的有效性:

require("XML")
html_parsed <- htmlParse(html)

> xpathSApply(html_parsed, "//a[. = 'devtools']", xmlAttrs)
                                    href 
"../../web/packages/devtools/index.html" 
## >> Valid HTML

html_2_parsed <- htmlParse(readLines(gzfile(path_gz_2)))

> xpathSApply(html_2_parsed, "//a[. = 'devtools']", xmlAttrs)
                                    href 
"../../web/packages/devtools/index.html" 
## >> Valid HTML

html_3_parsed <- htmlParse(readLines(gzfile(path_gz_3)))

> xpathSApply(html_3_parsed, "//a[. = 'devtools']", xmlAttrs)
                                    href 
"../../web/packages/devtools/index.html" 
## >> Valid HTML
html_2 <- gsub(">\\s*<", "", html)

去除><

而是尝试:

html_2 <- gsub("(>)\\s*(<)", "\\1\\2",html)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM