簡體   English   中英

基於Java的可讀性分析器

[英]A Java-based Readability-like parser

我想知道有哪些獨立選項可用於將普通網頁解析並將其轉換為易於閱讀的格式,這些服務由Pocket,Readability和Instapaper等服務提供。

我主要是在尋找要包含在我的應用程序中的Java解析器庫,但總的來說,各種獨立工具都值得贊賞。

謝謝。

我認為您是在Snacktory的追隨者 ,而Snacktory如今已成為Java取代jreadability的最新技術。

Snackatory現在本身聲明已過時,建議使用Crux

但是,還有Readability4J 這是Mozilla的Readability.js的Kotlin端口,用於Firefox的Reader View。 因此,Readability4J的輸出與Firefox的Reader View完全匹配。

免責聲明:我是Readability4J的作者。 但是我只是移植了它,偉大的工作受到了Mozilla的敬意: https : //github.com/mozilla/readability

JSoup是第一個想到的庫。 非常適合抓取HTML。 您可以輕松地將所有標簽從網頁上剝離,僅保留文本。 (如果您知道目標頁面的結構,則可以使用特定的選擇器來獲取所需的內容,或排除所需的內容。)

再說一遍,您可能只是想要像“飛碟”之類的東西,它將盡力將網頁呈現為PDF。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM