簡體   English   中英

URL連接上的InputStreamReader返回null

[英]InputStreamReader on a URL connection returning null

我正在閱讀《 Java的Web Scraping》一書中有關Web抓取的教程。 以下代碼為我提供了一個nullPointerExcpetion。 問題的一部分是(line = in.readLine())始終為null,因此第33行的while循環永遠不會運行。 我不知道為什么它總是為空。 誰能提供我對此的見識? 此代碼應在CPython上打印Wikipedia文章的第一段。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.net.*;
import java.io.*;

public class WikiScraper {
    public static void main(String[] args) {
        scrapeTopic("/wiki/CPython");
    }
    public static void scrapeTopic(String url){
        String html = getUrl("http://www.wikipedia.org/"+url);
        Document doc = Jsoup.parse(html);
        String contentText = doc.select("#mw-content-text > p").first().text();
        System.out.println(contentText);
    }
    public static String getUrl(String url){
        URL urlObj = null;
        try{
            urlObj = new URL(url);
        }
        catch(MalformedURLException e){
            System.out.println("The url was malformed!");
            return "";
        }
        URLConnection urlCon = null;
        BufferedReader in = null;
        String outputText = "";
        try{
            urlCon = urlObj.openConnection();
            in = new BufferedReader(new InputStreamReader(urlCon.getInputStream()));
            String line = "";
            while((line = in.readLine()) != null){
                outputText += line;
            }
            in.close();
        }catch(IOException e){
            System.out.println("There was an error connecting to the URL");
            return "";
        }
        return outputText;
    }
}

如果您在網絡瀏覽器中輸入http://www.wikipedia.org//wiki/CPython ,它將被重定向到https://en.wikipedia.org/wiki/CPython ,因此

使用String html = getUrl("https://en.wikipedia.org/"+url);

而是String html = getUrl("http://www.wikipedia.org/"+url);

然后line = in.readLine()可以真正讀取內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM