繁体 English 中英

如何使用样板从HTML获取文章的主要内容？

[英]How to get the main content of an article from HTML using boilerplate?

原文 2016-10-10 06:53:30 5 1 java/ summarization/ boilerpipe

我正在尝试使用样板代码从HTML获取文章的主要内容。

从这里下载最新的罐子。

我正在尝试使用以下代码：

String article = "";
try {
    article = ArticleExtractor.INSTANCE.getText(url);   
    System.out.println("Article ++++ >>" + article);    
} catch (BoilerpipeProcessingException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}

但这会为每个URL返回一个空字符串 。 谁可以帮我这个事？

1 个解决方案

您是否尝试过传递HTML本身而不是URL？ 也许您的url字符串格式设置方式存在问题。

如何从许多网址网页获取文章内容

[英]HOW to get article content from many urls webpages

如何使用Java从新闻文章中提取发布时间和文章内容？

[英]How to extract published-time and article-content from a news article using java?

android获取新闻文章内容

[英]android get news article content

如何使用类名获取HTML内容？

[英]How to get HTML content using class name?

如何从HttpServletResponse获取HTML内容？

[英]How to get the HTML content from HttpServletResponse?

如何从WebView获取HTML内容以进行打印？

[英]How to get HTML Content from WebView for print?

如何从链接到字符串读取/解析文章内容

[英]How to read/parse article content from link to string

从HTML提取文章标题（使用Boilerpipe）

[英]Extract article's headline from HTML(using Boilerpipe)

从RSS Feed获取主要内容

[英]Get the main content from RSS Feeds

如何使用Java从服务器端的特定URL获取HTML内容？

[英]How can I get HTML content from a specific URL on server side by using Java?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何从许多网址网页获取文章内容如何使用Java从新闻文章中提取发布时间和文章内容？ android获取新闻文章内容如何使用类名获取HTML内容？如何从HttpServletResponse获取HTML内容？如何从WebView获取HTML内容以进行打印？如何从链接到字符串读取/解析文章内容从HTML提取文章标题（使用Boilerpipe）从RSS Feed获取主要内容如何使用Java从服务器端的特定URL获取HTML内容？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM