簡體   English   中英

如何從加密的網址抓取數據?

[英]How to crawl data from encrypted url?

我正在嘗試使用scrapy從其目錄中收集大學教授的聯系信息。 由於我最多只能發布2個鏈接,因此我將所有鏈接都放在下圖中

如圖所示,我從下拉菜單中設置了姓氏等於。 然后我按姓氏搜索所有教授。

通常,該URL具有其他大學網站上的某些模式。 但是,對於此URL,原始URL為(1)。 當我搜索“ An”作為姓氏時,它變為(2)。 似乎“ An”已被529385FD5FF90A198625819E002B8B41代替? 我不確定。 有什么方法可以獲取需要作為請求發送的網址? 我的意思是,這次我搜索“ An”。 如果我搜索另一個姓氏,例如Lee。 這將是另一個請求。 他們是不規則的。 我找不到模式。

刮板並不像您想象的那樣復雜。 它只是從表單進行POST調用,並返回GET請求。 下面會工作

import scrapy
from scrapy.utils.response import open_in_browser

class univSpider(scrapy.Spider):
    name = "univ"
    start_urls = ["http://appl103.lsu.edu/dir003.nsf/(NoteID)/5903C096337C2AA28625819E0038E3E4?OpenDocument"]

    def parse(self, response):
        yield FormRequest.from_response(response, formname="_DIRVNAM", formdata={"LastName": "Lalwani"},callback = self.search_result)

    def search_result(self, response):
        open_in_browser(response)
        print(response.body)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM