[英]Extracting relative links from a web page in proper format using Jsoup
我已經解析了一個網頁的外部鏈接,我將再次使用Jsoup對其進行解析。 但是問題在於,鏈接的格式為: ../../../pincode/india/andaman-and-nicobar- islands/
。 我無法以這種形式解析它們。 因此,在其他stackoverflow的幫助下,我已使用link.attr("abs:href")
轉換為絕對URL。
我解析的第一個網頁的網址是: http://www.mapsofindia.com/pincode/india/
: http://www.mapsofindia.com/pincode/india/
。 解析后獲得的絕對URls的格式為http://www.mapsofindia.com/../pincode/india/andaman-and-nicobar-islands/
。 但是我無法使用Jsoup進一步解析它們。 因此,當我執行以下語句時:
Jsoup.parse("http://www.mapsofindia.com/../pincode/india/andaman-and-nicobar-islands/");
它給出了HTTP 400錯誤,即錯誤的請求。 因此,我認為Urls存在一些問題。 因此,任何人都可以幫助我解決上述問題,以適當的方式獲取網址,以便我進一步解析它們。 謝謝。
請測試以下兩件事:
link.absUrl("href")
而不是link.attr("abs:href")
baseUri()
) 順便說一句。 您最好將connect()
方法用於此操作:
Document doc = Jsoup.connect("http://<your url here>").get();
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.