簡體   English   中英

jsoup - 無法獲取特定網站

[英]jsoup - Not able to fetch a specific website

我在 Java 開發人員的最新 Eclipse IDE(包括孵化組件)中使用最新的 jsoup (1.13.1) 版本:2020-09 (4.17.0) 構建 ID:20200910-1200。

我正在嘗試解析一個非常具體的網站,但沒有成功。 在我執行這些行后: doc = Jsoup.connect("http://pokehb.pw/%D7%A2%D7%95%D7%A0%D7%94/21/%D7%A4%D7%A8%D7 %A7/43").get(); doc.select("title").forEach(System.out::println);

什么都不會打印。 不僅僅是 ,頁面的任何元素或屬性都不可用。

是的,URL 很奇怪,但這是我需要的,我可以在 Chrome 中正常瀏覽。 我也知道這是由於網站上的希伯來語,因為其他希伯來語網站工作正常。

例如,使用這個 URL 似乎沒問題: https : //context.reverso.net/translation/hebrew-english/%D7%9C%D7%9B%D7%AA%D7%95%D7%91%D7%AA+網址

關於可以做什么的任何提示?

我可以告訴你的是 cookie 中有一個“laravel_session”。 這表明您需要比 JSoup 更強大的技術。 試試 HtmlUnit,它可能會工作。

我最終做的是使用這個命令: doc = Jsoup.parse(driver.getPageSource());

這將所有頁面的源代碼都帶入了文檔中。 從那里可以簡單地使用 getElementsByClass 和 getElementsByTag。

希望這對某人有所幫助,並感謝 Rob 嘗試回答。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM