使用jsoup解析html但不跟隨/獲取鏈接

Question

什么是使用JSoup解析html字符串或流而無需獲取link / img / area / iframe（以及任何其他）標簽的外部數據的“正確”方法？ 現在，在使用Apache HttpComponents提取頁面后，我正在執行以下操作：

HttpEntity entity = response.getEntity();
InputStream is = entity.getContent();
Document = JSoup.parse(is, null, "");

這實際上工作正常。 但是將baseUri傳遞為空只是感覺不對 ，因為我敢打賭JSoup會嘗試使用它，只是失敗並繼續前進。 我只想將JSoup用作html解析器和DOM操作套件，而不是http框架。 我還擔心JSoup可能會嘗試在當前目錄中或其他目錄中查找="/foo"資源。 這是什么一個空字符串嗎？ 我嘗試將null作為baseUri傳遞，這將是執行我想要的操作的自然接口，但是它死於IllegalStateException。

有沒有辦法做到這一點，還是我什么都不擔心？

Answer 1

...我不認為JSoup能做到這一點。 URL參數僅用於相對URL的規范化，您對它們的處理是您的責任。 JSoup本身不會嘗試訪問資源。

使用jsoup解析html但不跟隨/獲取鏈接

問題描述

1 個解決方案

解決方案1
1 已采納 2013-09-15 05:58:23

使用jsoup解析html但不跟隨/獲取鏈接

問題描述

1 個解決方案

解決方案1 1 已采納 2013-09-15 05:58:23

解決方案1
1 已采納 2013-09-15 05:58:23