从沃尔玛html页面提取HTML内容

Question

我写了下面的代码。 我需要从下面的URL中提取价格。我正在用Java编写代码。 http://www.walmart.com/ip/VIZIO-E70-C3-70-1080p-240Hz-Class-LED-Smart-HDTV/43310251

String regEx = "<span\\s+class=\"sup\">.+</span>[\n]*(\\d+(,)*\\d+)[\n*]<span\\s+class=\"visuallyhidden\">[.]*</span>[\n]*<span\\s+class=\"sup\">(\\d+)";
Pattern p1 = Pattern.compile(regEx);
System.out.println("Vikash");
while ((line = in .readLine()) != null) {
    sb.append(line + "\n");

}
m = p1.matcher(sb);
while (!m.hitEnd()) {
    if (m.find()) {
        System.out.println("$" + m.group());
    }
}

Answer 1

如果您不能使用API，则应为此使用框架。 看看http://jsoup.org

它将生成一个结构化的文档，并允许您遍历id，类，标签等。

例如

findElementsByClass("sup") 。 当我回到桌面时，可以提供一些示例代码。

从沃尔玛html页面提取HTML内容

问题描述

1 个解决方案

解决方案1
0 2015-05-05 07:26:29

从沃尔玛html页面提取HTML内容

问题描述

1 个解决方案

解决方案1 0 2015-05-05 07:26:29

解决方案1
0 2015-05-05 07:26:29