繁体   English   中英

如何使用Java从新闻文章中提取发布时间和文章内容?

[英]How to extract published-time and article-content from a news article using java?

我必须从新闻链接中提取发布时间和文章内容。

例如:从此链接http://techcrunch.com/2013/03/19/jawbone-android/

我必须将发布时间和文章内容提取为

发布时间:昨天发布

文章内容:Jawbone今天宣布,该公司的运动跟踪腕带UP的应用现在可以在Google Play上免费下载为Android。 129美元的UP以前仅与iOS兼容。 腕带现在也可以购买……

我认为您可以使用jsoup

http://jsoup.org/

jsoup是一个用于处理实际HTML的Java库。 它提供了使用DOM,CSS和类似jquery的最好方法提取和处理数据的非常方便的API。

对于文章文本提取,您可以使用BoilerPipe

 ArticleExtractor extractor = ArticleExtractor.INSTANCE
 String articleText = extractor.getText(yourHTML);

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM