Python網站搜尋器，使用Scrapy保存文件

Question

我正在嘗試編寫一個爬網程序，該爬網程序將使用某個搜索條目，並保存與結果相關的一堆.CSV文件。

我已經登錄了Spider，解析所有需要的html數據，現在剩下要做的就是弄清楚如何保存所需的文件。

因此，搜索返回的鏈接例如https://www.thissite.com/data/file_download.jsp?filetype=1&id=22944

然后在網絡瀏覽器中提示您保存相關的.csv文件。 如何編寫我的Spider才能加載此頁面並下載文件？ 還是有一種方法可以捕獲到信息的靜態鏈接？

Answer 1

如果您抓取了CSV文件的鏈接，則只需使用wget下載即可，該程序也可以登錄頁面。

您可以指定--http-user和--http-passwd，或按如下方式使用Cookie：

$ wget --cookies=on --keep-session-cookies --save-cookies=cookie.txt --post-data "login=USERNAME&password=PASSWORD" http://first_page
$ wget --referer=http://first_page --cookies=on --load-cookies=cookie.txt --keep-session-cookies --save-cookies=cookie.txt http://second_page

它取決於您的網站如何處理登錄。 還有其他幾種使用wget登錄頁面的方法，我相信您可以通過谷歌搜索找到它們。

我建議在特殊的Scrapy Pipeline中完成所有這些操作，因此，所有操作均在Scrapy中完成，而不是在外部腳本中完成。

Python網站搜尋器，使用Scrapy保存文件

問題描述

1 個解決方案

解決方案1
1 2011-08-19 06:42:41

Python網站搜尋器，使用Scrapy保存文件

問題描述

1 個解決方案

解決方案1 1 2011-08-19 06:42:41

解決方案1
1 2011-08-19 06:42:41