簡體   English   中英

使用源 Java 抓取文本 - 沒有評論文本

[英]Scraping text using source Java - no text of reviews

我正在嘗試制作一個自動化的java程序,它將獲取某個網頁的源代碼,但是我能夠通過自動化程序獲取的源代碼與我右鍵單擊該網頁時獲得的源代碼不同。 現在,根據我在互聯網上找到的代碼,這是我的解決方案,但不起作用。 我需要獲取評論的文本,下面的代碼不會返回它。

public static void main(String[] args) throws IOException {
    URL url = new URL(
            "http://www.tripadvisor.com/ShowUserReviews-g60745-d481776-r184086024-Prudential_Center-Boston_Massachusetts.html#REVIEWS");
    URLConnection spoof = url.openConnection();
    spoof.setRequestProperty("User-Agent",
            "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0;    H010818)");
    BufferedReader in = new BufferedReader(new InputStreamReader(
            spoof.getInputStream()));
    String strLine = "";
    String finalHTML = "";
    // Loop through every line in the source
    while ((strLine = in.readLine()) != null) {
        finalHTML += strLine+"\n";
    }
    System.out.println(finalHTML);
}

}

您通常無法檢索頁面的“源代碼”,除非該頁面是 1990 年代的純靜態 HTML 頁面。 頁面的源代碼將由 HTML(或 XML+XSLT)和 CSS 以及在頁面加載后修改 DOM 的 Javascript 組成。

此外,在頁面加載后,DOM 可以繼續修改以響應事件,並且可以繼續通過 Ajax 甚至原始套接字從一個或多個服務器獲取數據。 因此,有作為“代碼”,除非你的意思只是最初傳送的HTML,CSS,JavaScript和圖像沒有這樣的事。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM