[英]How to read with java web page content that is not included in the html source?
我曾經使用以下代碼通過Java讀取http://piibel.net內容:
String url = "http://piibel.net/?q=Ap%2015";
URL oracle = new URL(url);
BufferedReader in = new BufferedReader(new InputStreamReader(oracle.openStream(),"UTF-8"));
String inputLine;
LinkedList<String> alamvärsid = new LinkedList<String>();
while ((inputLine = in.readLine()) != null){
//do something
}
它運行良好,但是現在他們已經進行了一些更改,並且我們從該網頁讀取的實際文本是“動態內容”,您無法再從源代碼訪問它! 但是源代碼是java實際讀取的東西!
我試圖用谷歌搜索這個問題,但是人們大多只問如何閱讀沒有html標簽的純文本。 這不是我的問題; 我可以使用html源代碼正常工作。 問題是我要查找的信息不在源代碼中。 我可以在Chrome和Firefox的“檢查元素”功能中看到它,但是java不能為我重現該功能。
我看到一些XHR請求正在后台運行,這些請求帶來了您正在尋找的內容
http://piibel.net/.xml?q=1Ms%202
http://piibel.net/.xml?q=1Ms%203
注意:在所有情況下,搜集數據可能並不合法。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.