如何從加密的網址抓取數據？

Question

我正在嘗試使用scrapy從其目錄中收集大學教授的聯系信息。 由於我最多只能發布2個鏈接，因此我將所有鏈接都放在下圖中。

如圖所示，我從下拉菜單中設置了姓氏等於。 然后我按姓氏搜索所有教授。

通常，該URL具有其他大學網站上的某些模式。 但是，對於此URL，原始URL為（1）。 當我搜索“ An”作為姓氏時，它變為（2）。 似乎“ An”已被529385FD5FF90A198625819E002B8B41代替？ 我不確定。 有什么方法可以獲取需要作為請求發送的網址？ 我的意思是，這次我搜索“ An”。 如果我搜索另一個姓氏，例如Lee。 這將是另一個請求。 他們是不規則的。 我找不到模式。

Answer 1

刮板並不像您想象的那樣復雜。 它只是從表單進行POST調用，並返回GET請求。 下面會工作

import scrapy
from scrapy.utils.response import open_in_browser

class univSpider(scrapy.Spider):
    name = "univ"
    start_urls = ["http://appl103.lsu.edu/dir003.nsf/(NoteID)/5903C096337C2AA28625819E0038E3E4?OpenDocument"]

    def parse(self, response):
        yield FormRequest.from_response(response, formname="_DIRVNAM", formdata={"LastName": "Lalwani"},callback = self.search_result)

    def search_result(self, response):
        open_in_browser(response)
        print(response.body)

如何從加密的網址抓取數據？

問題描述

1 個解決方案

解決方案1
0 已采納 2017-09-17 10:30:45

如何從加密的網址抓取數據？

問題描述

1 個解決方案

解決方案1 0 已采納 2017-09-17 10:30:45

解決方案1
0 已采納 2017-09-17 10:30:45