繁体   English   中英

如何从保存的HTML页面获取图像

[英]How to get images from a saved html page

我的PC中保存了大量HTML页面。 我已经解析了HTML页面并获得了图像src。 我需要将每个HTML页面中的图像以特定结构存储在单独的目录中。 我尝试了NET :: HTTP.get,但是文件名错误时间过长。 有什么办法做到这一点?

以下是我尝试的方法。

方法1:

{
require 'open-uri'

def save_image(imgsrc)
    File.open("images/img1","w") do |f|
        asdf = open(imgsrc).read
        f.write(asdf)
    end
end
}

方法2:

{
require 'NET::HTTP'

def save_image(imgsrc)
    File.open("images/img1","w") do |f|
        asdf = Net::HTTP.get_response(URI.parse(imgsrc)
        f.write(asdf)
    end
end
}


imgsrc => 

您已经有图像,您发布的图像(在imgsrc变量中)是

这个图片

您只需要使用base64模块对其进行解码,然后将结果保存到文件中即可。

为了解码您的图像,我使用了这项服务


要使用Base64进行解码,您应该使用#strict_decode64方法:

$ cat testb64.rb

imgsrc='/9j/4AAQS... ...oooA//2Q==' #( snipped here your long variable, 
                                    #  removed "data:image/jpeg;base64," 
                                    #  from the beginning )
require 'base64'
print Base64.strict_decode64(imgsrc)

$ ruby testb64.rb >img.jpg

$ xxd -p img.jpg 
ffd8ffe000104a464946....

(valid JFIF header, viewable JPEG by Gwenview and Dolphin)

这应该工作:

require 'open-uri'

require 'base64'
require 'open-uri'

def save_image(imgsrc)
  File.open("images/img1", "wb") do |fo|
    fo.write(Base64.decode64(open(imgsrc).read))
  end
end

它将保存到文件路径"images/img1"因此您将要为每个文件创建单独的路径,否则它们将覆盖每个文件。

"wb"表示使用二进制模式打开输出文件,从而避免了适用于您的OS的行尾转换。 如果没有b ,Ruby将查找“ \\ r”和“ \\ n”,并根据需要删除或添加它们,以删除文本文件,这将破坏二进制文件。 b避免了该步骤。 IO.new说明IO.new进行了IO.new

你不能通过

imgsrc => 

作为图片的网址,因为它不是网址。 OpenURI和Net :: HTTP都期望图像的URL,然后它们将请求该URL并读取结果响应,将数据返回给您的代码。 您需要对该数据进行Base64解码,这将在内存中产生一个二进制字符串,然后您可以将其写入以二进制模式打开的文件。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM