[英]Asynchronous crawling F#
在网页上抓取时,我需要小心,不要向同一个域发出太多请求,例如我想在请求之间放置1秒。 据我所知,这是请求之间的重要时间。 因此,为了加快速度,我想在F#中使用异步工作流,这个想法是以1秒的间隔发出请求,但在等待请求响应时避免阻塞。
let getHtmlPrimitiveAsyncTimer (uri : System.Uri) (timer:int) =
async{
let req = (WebRequest.Create(uri)) :?> HttpWebRequest
req.UserAgent<-"Mozilla"
try
Thread.Sleep(timer)
let! resp = (req.AsyncGetResponse())
Console.WriteLine(uri.AbsoluteUri+" got response")
use stream = resp.GetResponseStream()
use reader = new StreamReader(stream)
let html = reader.ReadToEnd()
return html
with
| _ as ex -> return "Bad Link"
}
然后我做了类似的事情:
let uri1 = System.Uri "http://rue89.com"
let timer = 1000
let jobs = [|for i in 1..10 -> getHtmlPrimitiveAsyncTimer uri1 timer|]
jobs
|> Array.mapi(fun i job -> Console.WriteLine("Starting job "+string i)
Async.StartAsTask(job).Result)
这好吗? 我非常不确定两件事: - Thread.Sleep是否适用于延迟请求? - 使用StartTask有问题吗?
我是初学者(你可能已经注意到了)在F#中(实际编码一般),并且所有涉及Threads的东西都让我害怕:)
谢谢 !!
我想你想要做的是 - 创建10个工作,编号为'n',每个从现在起'n'秒开始 - 并行运行
大概喜欢
let makeAsync uri n = async {
// create the request
do! Async.Sleep(n * 1000)
// AsyncGetResponse etc
}
let a = [| for i in 1..10 -> makeAsync uri i |]
let results = a |> Async.Parallel |> Async.RunSynchronously
请注意,当然它们都不会完全启动,例如,如果您有一台4核机器,4将很快开始运行,但随后快速执行Async.Sleep,此时接下来的4将会运行直到他们睡觉,等等。 然后在一秒钟内第一个异步唤醒并发布一个请求,另一个秒后第二个异步唤醒,...所以这应该工作。 1s只是近似的,因为他们每个人的起始时间彼此错开一点......你可能想稍微缓冲一下,例如1100毫秒或者其他东西,如果你需要的截止点确实是一个第二(网络延迟,还有什么可能留下一些可能控制你的程序之外)。
Thread.Sleep
是次优的,对于少量请求它可以正常工作,但是你正在烧掉一个线程,并且线程很昂贵而且它不会扩展到很多。
您不需要StartAsTask
除非您希望与.NET任务进行互操作,或者稍后通过.Result
对结果进行阻塞集合。 如果你只是希望这些都运行然后阻塞来收集数组中的所有结果, Async.Parallel
将为你做这个fork-join并行性就好了。 如果他们只打算打印结果,你可以通过Async.Start
,这会将结果丢弃在地板上。
(另一种策略是使用代理作为限制。将所有http请求发布到单个代理,其中代理在逻辑上是单线程并且处于循环中,执行Async.Sleep
1 Async.Sleep
,然后处理下一个请求这是一个制作通用油门的好方法......可能对我而言值得博客,想到它。)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.