繁体   English   中英

尝试解析文件中的所有URL,在这种情况下为远程URL

[英]Trying to parse all URLs from a file or in this case a remote URL

我正在尝试解析3个参数(此方法可行)并请求其中包含一堆txt和URL的文件。 我正在尝试将每个URL放入一个数组,我尝试了一些没有运气的正则表达式,也尝试了scan(URI.regexp) ,无法看到我在做什么错。

#!/usr/bin/env ruby
require 'uri'
require 'open-uri'

HOST=ARGV[0]
ID=ARGV[1]
VERSION=ARGV[2]
MYLINKS = Array.new

file = open("http://#{HOST}/v1/dc/manifest/#{ID}/#{VERSION}").read

file.each_line do |line|
    #puts "doing #{line}" # this works..
    MYLINKS << URI.extract(line, ['http', 'https'])
end

PS:该文件是JSON文件。 这一切都在处理Bash脚本,但是我正在将其迁移到Ruby。 在Bash脚本中,我将文件下载到/tmp然后用awk / tr等解析。

您应该MYLINKS用变量(例如my_links替换常量my_links 这将允许您将元素添加到my_links数组。 Ruby会假定任何以大写字母开头的名称(例如MYLINKSMyLinks )都是常量。

#!/usr/bin/env ruby
require 'uri'
require 'open-uri'

HOST=ARGV[0]
ID=ARGV[1]
VERSION=ARGV[2]
my_links = []

file.each_line do |line|
    my_links << URI.extract(line, ['http', 'https'])
end

使用像HTTParty这样的API客户端,您实际上不必了解JSON,因为响应被解析为可以提取的数据结构。 您可以从一个简单的类开始:

require 'httparty'

class MyApi
  include HTTParty
  format :json
end

然后,您可以执行以下操作:

response = MyApi.get("http://#{HOST}/v1/dc/manifest/#{ID}/#{VERSION}")

响应将被解析为一个哈希结构,您将能够以可靠的方式从中提取URL。

如果您的API需要身份验证或发布数据,则很容易添加。 gem本身中有几个示例 ,因此您可以看到各种操作是如何完成的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM