使用Java / Jsoup進行Web爬取

Question

我正在嘗試從GlassDoor中提取平均工資。 這是HTML代碼所在的位置：

<span class="OccMedianBasePayStyle__payNumber" data-test="AveragePay">$118,034</span>

這是我到目前為止的內容。此代碼輸出我想要的行，但我不知道如何從data-test =“ AveragePay”中提取薪水

public class Trans {

    public static void main(String[] args) {
        String url = "https://www.glassdoor.com/Salaries/seattle-software-engineer-salary-SRCH_IL.0,7_IM781_KO8,25.htm";
        Document document = null;
        try {
            document = Jsoup.connect(url).get();
        } catch (IOException e) {
            e.printStackTrace();
        }

        //a with href
        Elements links = document.select("span");

        for (Element link : links) {

            System.out.println("Text: " + link.getElementsByAttributeValueContaining("data-test", "Average"));

            //System.out.println("Text: " + link.text()); 
        }

Answer 1

您沒有使用正確的選擇器。 您應該將span傳遞給data-test =“ AveragePay”。

將您的選擇器和for循環更改為此，它基本上只選擇具有span [data-test =“ AveragePay”]的元素

public static void main(String[] args) {
        String url = "https://www.glassdoor.com/Salaries/seattle-software-engineer-salary-SRCH_IL.0,7_IM781_KO8,25.htm";
        Document document = null;
        try {
            document = Jsoup.connect(url).get();
        } catch (IOException e) {
            e.printStackTrace();
        }

        //a with href
        Elements links = document.select("span[data-test='AveragePay']");

        for (Element link : links) {                
            System.out.println("Text: " + link.text());     
        }
 }

注意：我希望這只是出於教育目的。 Web爬網具有一些法律限制。 在將其用於任何商業目的之前，您需要檢查目標站點的條款和條件。

使用Java / Jsoup進行Web爬取

問題描述

1 個解決方案

解決方案1
2 已采納 2018-07-20 19:58:26

使用Java / Jsoup進行Web爬取

問題描述

1 個解決方案

解決方案1 2 已采納 2018-07-20 19:58:26

解決方案1
2 已采納 2018-07-20 19:58:26