簡體   English   中英

使用jsoup處理網頁中的分頁

[英]Dealing with pagination in web pages while using jsoup

我一直在使用jsoup來瀏覽特定網站的網頁。 基本上,我試圖提取所有具有pdf鏈接的href。 我已經成功獲取了特定頁面的所有鏈接。 但是有10個這樣的頁面。 網頁使用javascript _doPostBack()函數的邏輯來導航到其他頁面。 我如何通過jsoup完成此操作。

這就是我現在正在嘗試的方式

Document document = Jsoup.connect(" some website name")
                        .data("__EVENTARGUMENT", __EVENTARGUMENT)
                        .data("__EVENTTARGET", __EVENTTARGET)
                        .data("__EVENTVALIDATION", __EVENTVALIDATION)
                        .data("__VIEWSTATEGENERATOR ", __VIEWSTATEGENERATOR)
                        .cookie("ASP.NET_SessionId", sessionId)
                        .followRedirects(true)
                        .timeout(0)
                        .userAgent(
                            "Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
                        .post(); 

但是我收到錯誤的網址輸出。 我已經定義了所有變量,然后再發送。

當我遇到這類問題時,請按以下解決方法:

  • 在瀏覽器中加載頁面
  • 在瀏覽頁面(Fiddler,Firebug,Dev Console /工具欄...)時監視瀏覽器和服務器之間交換的http消息
  • 標識瀏覽器和服務器交換的每個字節(標頭,Cookie等)
  • 一旦確定了所有單個字節,請嘗試使用hurl.it瀏覽頁面(輸入標頭,Cookie,用戶代理等)
  • 一旦成功使用hurl.it瀏覽頁面,請指示Jsoup執行相同的操作

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM