在 JAVA 中使用 Xpath 解析 HTML 文件

Question

我有一個 Java 代碼，它可以讀取 URL 的源代碼並保存到文件 (source.html)，現在從保存的頁面中，我想使用 XPath 提取一些值。 假設我想讀取價格 - //div [@itemprop='price'] //text ()

如何進一步執行此操作，我是否可以直接在保存的 HTML 頁面中執行此操作，或者我應該首先將其轉換為 XML 文件，然后使用 XPath。 我聽說過 HTML 清潔器/解析器，我應該在這里使用它嗎？ 請不要指向其他網站尋求答案。 如果是這樣，請將我帶到一個可以進行直接和簡單課程的地方。 修改以下代碼將非常有幫助。

import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;

import org.jsoup.Jsoup;

public class jSoupContentRead {
    @SuppressWarnings("resource")
    public static void main(String[] args) throws IOException {
        FileWriter FR = new FileWriter("source.html");
        PrintWriter op = new PrintWriter(FR);

        org.jsoup.nodes.Document doc = Jsoup.connect(
                "http://itunes.apple.com/us/book/a-way-home/id982665320?mt=11")
                .get();

        op.write(doc.toString());
        System.out.println(doc.toString());
    }
}

Answer 1

通常（跨語言）XPath 將應用於 DOM 結構。 在 php 中有一個標准程序：

獲取 html
使其成為有效的 xml（可能是可選步驟）
使其成為 DOMDocument 對象實例
使其成為 DOMXPath 對象實例
將 xpath 查詢應用於此 DOMXPath 實例。 請參閱php 中的示例。

我認為JAVA中應該有類似的東西。

在 JAVA 中使用 Xpath 解析 HTML 文件

問題描述

1 個解決方案

解決方案1
0 已采納 2015-05-18 09:34:43

在 JAVA 中使用 Xpath 解析 HTML 文件

問題描述

1 個解決方案

解決方案1 0 已采納 2015-05-18 09:34:43

解決方案1
0 已采納 2015-05-18 09:34:43