[英]Solr Tika, Text with style
我看過以下鏈接: http : //www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika我得到的是純文本,沒有來自Tika的任何樣式供Solr搜索。 是否可以從Solr中獲得帶有其樣式的文本? 換句話說,在solr搜索之后,我們需要以原始樣式顯示文本。
如果您考慮一下,pdf中的“原始樣式”是什么? 您要保留“樣式”的哪些組成部分?
它不僅是字體和粗細,還包括筆划,填充,角度,路徑,圖形,跟蹤,透明度,變換等等。 如果掌握了所有這些內容,您將如何在UI / Web中顯示它?
除了顯示原始PDF之外,您無法真正地復制原始樣式。 因此,這就是人們通常想要原始格式的方式。
否則,他們僅使用純文本。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.