如何从许多网址网页获取文章内容

Question

我搜索过比什么都多的正确解决方案，但仍然无法解决。 请看一下并帮助我。

   import java.io.BufferedReader;
   import java.io.BufferedWriter;
   import java.io.FileOutputStream;
   import java.io.IOException;
   import java.io.InputStreamReader;
   import java.io.OutputStreamWriter;
   import java.io.PrintWriter;

   import org.jsoup.Jsoup;
   import org.jsoup.nodes.Document;
   import org.jsoup.nodes.Element;
   import org.jsoup.select.Elements;

   public class NewClass {


   public static void main(String[] args) throws IOException {


   Document doc = Jsoup.connect("http://tamilblog.ishafoundation.org").get();
         Elements section = doc.select("section#content");
  Elements article = section.select("article");
  for (Element a : article) {
    System.out.println("Title : \n" + a.select("a").text());
    System.out.println("Article summary: \n" + a.select("div.entry-summary").text());

  }

  }
}

我有上面的代码，可从单个页面获取文章及其内容。

   Document doc = Jsoup.connect("http://tamilblog.ishafoundation.org").get();

我想对几个网站这样做。

在这一行或使用一些迭代，我想将我的代码应用于多个网页，例如500+。 我想将其保存在其文章标题和内容下的单独的文本文档中。

我是编码新手，所以找不到正确的代码。

我过去两个月都在编写此代码，以创建自己的代码。

Answer 1

对于初学者，您可以执行以下操作，

String[] urls={"http://tamilblog.ishafoundation.org","url2","url3"};//your 500 urls wil be stored here, 

    for(String url: urls){
        Document doc = Jsoup.connect(url).get();
        Elements section = doc.select("section#content");
        Elements article = section.select("article");
        for (Element a : article) {
            System.out.println("Title : \n" + a.select("a").text());
            System.out.println("Article summary: \n" + a.select("div.entry-summary").text());
        }
    }

如何从许多网址网页获取文章内容

问题描述

1 个解决方案

解决方案1
0 2015-12-15 07:00:02

如何从许多网址网页获取文章内容

问题描述

1 个解决方案

解决方案1 0 2015-12-15 07:00:02

解决方案1
0 2015-12-15 07:00:02