簡體   English   中英

使用Jsoup以正確的格式從網頁中提取相對鏈接

[英]Extracting relative links from a web page in proper format using Jsoup

我已經解析了一個網頁的外部鏈接,我將再次使用Jsoup對其進行解析。 但是問題在於,鏈接的格式為: ../../../pincode/india/andaman-and-nicobar- islands/ 我無法以這種形式解析它們。 因此,在其他stackoverflow的幫助下,我已使用link.attr("abs:href")轉換為絕對URL。

我解析的第一個網頁的網址是: http://www.mapsofindia.com/pincode/india/ : http://www.mapsofindia.com/pincode/india/ 解析后獲得的絕對URls的格式為http://www.mapsofindia.com/../pincode/india/andaman-and-nicobar-islands/ 但是我無法使用Jsoup進一步解析它們。 因此,當我執行以下語句時:

Jsoup.parse("http://www.mapsofindia.com/../pincode/india/andaman-and-nicobar-islands/");

它給出了HTTP 400錯誤,即錯誤的請求。 因此,我認為Urls存在一些問題。 因此,任何人都可以幫助我解決上述問題,以適當的方式獲取網址,以便我進一步解析它們。 謝謝。

請測試以下兩件事:

  1. 嘗試使用link.absUrl("href")而不是link.attr("abs:href")
  2. 檢查基本uri(在元素或文檔上調用baseUri()

順便說一句。 您最好將connect()方法用於此操作:

Document doc = Jsoup.connect("http://<your url here>").get();

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM