从URL中提取HTML

Question

我正在使用Boilerpipe从url中提取文本，使用以下代码：

URL url = new URL("http://www.example.com/some-location/index.html");
String text = ArticleExtractor.INSTANCE.getText(url);

String text只包含html页面的文本，但我需要从中提取整个html代码。

是否有人使用此库并知道如何提取HTML代码？

您可以查看演示页面以获取有关库的更多信息。

Answer 1

对于像这样简单的事情，你真的不需要一个外部库：

 URL url = new URL("http://www.google.com");
 InputStream is = (InputStream) url.getContent();
 BufferedReader br = new BufferedReader(new InputStreamReader(is));
 String line = null;
 StringBuffer sb = new StringBuffer();
 while((line = br.readLine()) != null){
   sb.append(line);
 }
 String htmlContent = sb.toString();

Answer 2

使用Java 7和Scanner技巧，您可以执行以下操作：

public static String toHtmlString(URL url) throws IOException {
    Objects.requireNonNull(url, "The url cannot be null.");
    try (InputStream is = url.openStream(); Scanner sc = new Scanner(is)) {
        sc.useDelimiter("\\A");
        if (sc.hasNext()) {
            return sc.next();
        } else {
            return null; // or empty
        }
    }
}

Answer 3

只需使用KeepEverythingExtractor而不是ArticleExtractor 。

但这是错误的工作使用错误的工具。 你想要的只是下载URL的HTML内容（对吗？），而不是提取内容。 那么为什么要使用内容提取器呢？

从URL中提取HTML

问题描述

3 个解决方案

解决方案1
10 已采纳 2011-03-06 21:49:40

解决方案2
1 2015-04-25 21:42:03

解决方案3
1 2011-03-06 21:50:42

从URL中提取HTML

问题描述

3 个解决方案

解决方案1 10 已采纳 2011-03-06 21:49:40

解决方案2 1 2015-04-25 21:42:03

解决方案3 1 2011-03-06 21:50:42

解决方案1
10 已采纳 2011-03-06 21:49:40

解决方案2
1 2015-04-25 21:42:03

解决方案3
1 2011-03-06 21:50:42