簡體   English   中英

使用jsoup解析html但不跟隨/獲取鏈接

[英]using jsoup to parse html but not follow/fetch links

什么是使用JSoup解析html字符串或流而無需獲取link / img / area / iframe(以及任何其他)標簽的外部數據的“正確”方法? 現在,在使用Apache HttpComponents提取頁面后,我正在執行以下操作:

HttpEntity entity = response.getEntity();
InputStream is = entity.getContent();
Document = JSoup.parse(is, null, "");

這實際上工作正常。 但是將baseUri傳遞為空只是感覺不對 ,因為我敢打賭JSoup會嘗試使用它,只是失敗並繼續前進。 我只想將JSoup用作html解析器和DOM操作套件,而不是http框架。 我還擔心JSoup可能會嘗試在當前目錄中或其他目錄中查找="/foo"資源。 這是什么一個空字符串嗎? 我嘗試將null作為baseUri傳遞,這將是執行我想要的操作的自然接口,但是它死於IllegalStateException。

有沒有辦法做到這一點,還是我什么都不擔心?

...我不認為JSoup能做到這一點。 URL參數僅用於相對URL的規范化,您對它們的處理是您的責任。 JSoup本身不會嘗試訪問資源。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM