繁体   English   中英

从沃尔玛html页面提取HTML内容

[英]Extraction of HTML content from Walmart html page

我写了下面的代码。 我需要从下面的URL中提取价格。我正在用Java编写代码。 http://www.walmart.com/ip/VIZIO-E70-C3-70-1080p-240Hz-Class-LED-Smart-HDTV/43310251

String regEx = "<span\\s+class=\"sup\">.+</span>[\n]*(\\d+(,)*\\d+)[\n*]<span\\s+class=\"visuallyhidden\">[.]*</span>[\n]*<span\\s+class=\"sup\">(\\d+)";
Pattern p1 = Pattern.compile(regEx);
System.out.println("Vikash");
while ((line = in .readLine()) != null) {
    sb.append(line + "\n");

}
m = p1.matcher(sb);
while (!m.hitEnd()) {
    if (m.find()) {
        System.out.println("$" + m.group());
    }
}

如果您不能使用API​​,则应为此使用框架。 看看http://jsoup.org

它将生成一个结构化的文档,并允许您遍历id,类,标签等。

例如

findElementsByClass("sup") 当我回到桌面时,可以提供一些示例代码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM