[英]How to crawl data from encrypted url?
我正在嘗試使用scrapy從其目錄中收集大學教授的聯系信息。 由於我最多只能發布2個鏈接,因此我將所有鏈接都放在下圖中 。
如圖所示,我從下拉菜單中設置了姓氏等於。 然后我按姓氏搜索所有教授。
通常,該URL具有其他大學網站上的某些模式。 但是,對於此URL,原始URL為(1)。 當我搜索“ An”作為姓氏時,它變為(2)。 似乎“ An”已被529385FD5FF90A198625819E002B8B41代替? 我不確定。 有什么方法可以獲取需要作為請求發送的網址? 我的意思是,這次我搜索“ An”。 如果我搜索另一個姓氏,例如Lee。 這將是另一個請求。 他們是不規則的。 我找不到模式。
刮板並不像您想象的那樣復雜。 它只是從表單進行POST調用,並返回GET請求。 下面會工作
import scrapy
from scrapy.utils.response import open_in_browser
class univSpider(scrapy.Spider):
name = "univ"
start_urls = ["http://appl103.lsu.edu/dir003.nsf/(NoteID)/5903C096337C2AA28625819E0038E3E4?OpenDocument"]
def parse(self, response):
yield FormRequest.from_response(response, formname="_DIRVNAM", formdata={"LastName": "Lalwani"},callback = self.search_result)
def search_result(self, response):
open_in_browser(response)
print(response.body)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.