簡體   English   中英

如何閱讀HTML源代碼中未包含的Java網頁內容?

[英]How to read with java web page content that is not included in the html source?

我曾經使用以下代碼通過Java讀取http://piibel.net內容:

String url = "http://piibel.net/?q=Ap%2015";
URL oracle = new URL(url);
BufferedReader in = new BufferedReader(new InputStreamReader(oracle.openStream(),"UTF-8"));
String inputLine;
LinkedList<String> alamvärsid = new LinkedList<String>();
while ((inputLine = in.readLine()) != null){
//do something
}

它運行良好,但是現在他們已經進行了一些更改,並且我們從該網頁讀取的實際文本是“動態內容”,您無法再從源代碼訪問它! 但是源代碼是java實際讀取的東西!

我試圖用谷歌搜索這個問題,但是人們大多只問如何閱讀沒有html標簽的純文本。 這不是我的問題; 我可以使用html源代碼正常工作。 問題是我要查找的信息不在源代碼中。 我可以在Chrome和Firefox的“檢查元素”功能中看到它,但是java不能為我重現該功能。

我看到一些XHR請求正在后台運行,這些請求帶來了您正在尋找的內容

http://piibel.net/.xml

http://piibel.net/.xml?q=1Ms%202

http://piibel.net/.xml?q=1Ms%203

注意:在所有情況下,搜集數據可能並不合法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM