繁体   English   中英

使用Java / Jsoup进行Web爬取

[英]Web Scraping with Java/Jsoup

我正在尝试从GlassDoor中提取平均工资。 这是HTML代码所在的位置:

<span class="OccMedianBasePayStyle__payNumber" data-test="AveragePay">$118,034</span>

这是我到目前为止的内容。此代码输出我想要的行,但我不知道如何从data-test =“ AveragePay”中提取薪水

public class Trans {

    public static void main(String[] args) {
        String url = "https://www.glassdoor.com/Salaries/seattle-software-engineer-salary-SRCH_IL.0,7_IM781_KO8,25.htm";
        Document document = null;
        try {
            document = Jsoup.connect(url).get();
        } catch (IOException e) {
            e.printStackTrace();
        }

        //a with href
        Elements links = document.select("span");

        for (Element link : links) {

            System.out.println("Text: " + link.getElementsByAttributeValueContaining("data-test", "Average"));

            //System.out.println("Text: " + link.text()); 
        }

您没有使用正确的选择器。 您应该将span传递给data-test =“ AveragePay”。

将您的选择器和for循环更改为此,它基本上只选择具有span [data-test =“ AveragePay”]的元素

public static void main(String[] args) {
        String url = "https://www.glassdoor.com/Salaries/seattle-software-engineer-salary-SRCH_IL.0,7_IM781_KO8,25.htm";
        Document document = null;
        try {
            document = Jsoup.connect(url).get();
        } catch (IOException e) {
            e.printStackTrace();
        }

        //a with href
        Elements links = document.select("span[data-test='AveragePay']");

        for (Element link : links) {                
            System.out.println("Text: " + link.text());     
        }
 }

注意:我希望这只是出于教育目的。 Web爬网具有一些法律限制。 在将其用于任何商业目的之前,您需要检查目标站点的条款和条件。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM