[英]HOW to get article content from many urls webpages
我搜索过比什么都多的正确解决方案,但仍然无法解决。 请看一下并帮助我。
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class NewClass {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("http://tamilblog.ishafoundation.org").get();
Elements section = doc.select("section#content");
Elements article = section.select("article");
for (Element a : article) {
System.out.println("Title : \n" + a.select("a").text());
System.out.println("Article summary: \n" + a.select("div.entry-summary").text());
}
}
}
我有上面的代码,可从单个页面获取文章及其内容。
Document doc = Jsoup.connect("http://tamilblog.ishafoundation.org").get();
我想对几个网站这样做。
在这一行或使用一些迭代,我想将我的代码应用于多个网页,例如500+。 我想将其保存在其文章标题和内容下的单独的文本文档中。
我是编码新手,所以找不到正确的代码。
我过去两个月都在编写此代码,以创建自己的代码。
对于初学者,您可以执行以下操作,
String[] urls={"http://tamilblog.ishafoundation.org","url2","url3"};//your 500 urls wil be stored here,
for(String url: urls){
Document doc = Jsoup.connect(url).get();
Elements section = doc.select("section#content");
Elements article = section.select("article");
for (Element a : article) {
System.out.println("Title : \n" + a.select("a").text());
System.out.println("Article summary: \n" + a.select("div.entry-summary").text());
}
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.