簡體   English   中英

使用wget在shtml頁面上下載所有zip文件

[英]Using wget to download all zip files on an shtml page

我一直在嘗試將該網站上的所有zip文件下載到EC2服務器。 但是,它無法識別鏈接,因此無法下載任何內容。 我認為這是因為shtml文件要求啟用SSI,這以某種方式導致wget出現問題。 但是我不太了解這些東西。

這是我一直未成功使用的代碼。

wget -r -l1 -H -t1 -nd -N -np -A.zip -erobots=off http://www.fec.gov/finance/disclosure/ftpdet.shtml#a2015_2016

感謝您的任何幫助,您可以提供!

zip鏈接未顯示在源代碼中,這就是為什么您無法通過wget下載它們,而是通過javascript生成的原因。 文件列表位於節點<fec_file status="Archive"></fec_file>下的http://fec.gov//finance/disclosure/tables/foia_files_summary.xml內。

您可以編寫腳本來解析xml文件,並將節點轉換為實際的鏈接,因為它們具有模式。


更新:

正如@cyrus所提到的,這些文件也位於ftp.fec.gov/FEC/ ,您可以使用wget -m來鏡像ftp和-A zip來將下載限制為zip文件,即:

wget -A zip -m --user=anonymous --password=test@test.com ftp://ftp.fec.gov/FEC/

wget -r

wget -A zip --ftp-user=anonymous --ftp-password=test@test.com -r ftp://ftp.fec.gov/FEC/*

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM