繁体   English   中英

htmlunit java - 如何解析来自 javascript 的内容结果? 和 htmlunit 错误

[英]htmlunit java - How to parse a content results from javascript? and a htmlunit error

这是我要抓取的页面之一: https : //www.tokopedia.com/berkahcell2/promo-termurah-vr-virtual-reality-box-v-2-0-remote-bluetooth-gamepad/review? src=顶垫

我想抓取“ulasan terbaru”下的评论文本,我认为这是 javascript 的结果(虽然我可能错了,我不完全确定如何通过检查元素检查它),除此之外我也是不确定 HTMLUnit 中的几件事

我已经读过它来抓取我需要使用 HTMLUnit 而不是 Jsoup 的 javascript 内容。 我已阅读http://htmlunit.10904.n7.nabble.com/Selecting-a-div-by-class-name-td25787.html尝试按类抓取div 的评论,但我的输出为零。

    public static void comment(String url) throws IOException{

        WebClient client = new WebClient();
        client.setCssEnabled(true);
        client.setJavaScriptEnabled(true);
        
        try {
            HtmlPage page = client.getPage(url);
            List<?> date = page.getByXPath("//div/@class='list-box-comment'");
            System.out.println(date.size());
            for(int i =0 ; i<date.size();i++){
                System.out.println(date.get(i).asText());
            }
        }
        catch(Exception e){
                e.printStackTrace();
            }

    }

这是我的代码中将处理注释抓取的部分,我做对了吗? 但我有两个问题:

  1. 在“asText()”它说“无法解析方法asText()”
  2. 即使我在没有“asText()”的情况下运行,我也将其视为错误:
com.gargoylesoftware.htmlunit.ObjectInstantiationException: unable to create HTML parser
    at com.gargoylesoftware.htmlunit.html.HTMLParser$HtmlUnitDOMBuilder.<init>(HTMLParser.java:418)
    at com.gargoylesoftware.htmlunit.html.HTMLParser$HtmlUnitDOMBuilder.<init>(HTMLParser.java:342)
    at com.gargoylesoftware.htmlunit.html.HTMLParser.parse(HTMLParser.java:203)
    at com.gargoylesoftware.htmlunit.html.HTMLParser.parseHtml(HTMLParser.java:179)
    at com.gargoylesoftware.htmlunit.DefaultPageCreator.createHtmlPage(DefaultPageCreator.java:221)
    at com.gargoylesoftware.htmlunit.DefaultPageCreator.createPage(DefaultPageCreator.java:106)
    at com.gargoylesoftware.htmlunit.WebClient.loadWebResponseInto(WebClient.java:433)
    at com.gargoylesoftware.htmlunit.WebClient.getPage(WebClient.java:311)
    at com.gargoylesoftware.htmlunit.WebClient.getPage(WebClient.java:373)
    at com.gargoylesoftware.htmlunit.WebClient.getPage(WebClient.java:358)
    at ReviewScraping.comment(ReviewScraping.java:86)
    at ReviewScraping.main(ReviewScraping.java:108)
Caused by: org.xml.sax.SAXNotRecognizedException: Feature 'http://cyberneko.org/html/features/scanner/allow-selfclosing-iframe' is not recognized.
    at org.apache.xerces.parsers.AbstractSAXParser.setFeature(Unknown Source)
    at com.gargoylesoftware.htmlunit.html.HTMLParser$HtmlUnitDOMBuilder.<init>(HTMLParser.java:411)
    ... 11 more

我希望我可以显示所有的评论

/edit我在做这个时使用 Intellij 作为我的 IDE,并且 HTMLUnit 的依赖关系通过使用 Maven 在我的 Intellij 项目结构中

关于你的代码:

public static void main(String[] args) throws IOException {
    final String url = "https://www.tokopedia.com/berkahcell2/promo-termurah-vr-virtual-reality-box-v-2-0-remote-bluetooth-gamepad/review?src=topads";

    try (final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_60)) {
        webClient.getOptions().setThrowExceptionOnScriptError(false);

        HtmlPage page = webClient.getPage(url);
        webClient.waitForBackgroundJavaScript(40_000);

        System.out.println(page.asXml());

        List<DomNode> date = page.getByXPath("//div[@class='list-box-comment']");
        System.out.println(date.size());

        for(int i = 0 ; i < date.size();i++){
            System.out.println(date.get(i).asText());
        }
    }
}

现在页面本身的问题:

已经做了一些测试,看起来页面也会在真实浏览器中产生错误(检查浏览器控制台)。 但是使用 HtmlUnit 您会遇到更多问题(可能是因为缺少对某些 javascript 功能的支持)。 通常这种页面会使用很多很多行的 js 代码 - 找出问题所在对我来说真的很耗时。 如果您想修复此问题,请尝试找出问题的真正原因(有关一些提示,请参阅http://htmlunit.sourceforge.net/submittingJSBugs.html )并提交错误报告。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM