簡體   English   中英

Apache Tika入門?

[英]Getting started with Apache Tika?

我想編寫一個使用Apache Tika來下載網頁文本內容的Java Web爬蟲,但是我是使用Apache項目的新手,但我還沒有找到確切的資料來闡明如何將Tika准確地集成到程序中。 根據我從Internet上收集到的信息,我已經在命令行中使用Maven構建了Tika,但是我不確定從哪里可以在Java程序中使用Parser等Tika類(?)。 我正在使用Eclipse(如果有所作為)-我也已經安裝了Eclipse的Maven插件,但是我不確定如何處理它...我需要輸入“ ...”行嗎? 請原諒我的“初學者”問題,但逐步使用Tika的逐步指南將不勝感激。

首先,您需要通讀Apache Tika入門指南 ,其中包括如何將Tika包含在您的項目中。 (這假設您具有將第三方jar包含到您自己的項目中的一些基本知識,否則,您需要閱讀一些有關它的教程)

在您的項目中開始使用Tika的最簡單方法是通過Tika Facade課程 這提供了一個單一類,可用於檢測,將其解析為純文本字符串以及通過閱讀器將其解析為xhtml,這些均來自各種來源。 那里提供所有基礎知識。

要進行更高級的使用,您需要遵循Parser API頁面Content Detection頁面上給出的信息。 您還可以使用AutoDetectParser來解析Tika示例 ,它應該可以完成您想做的事情,否則, 請瀏覽帶有注釋的Tika示例注釋列表,以獲取有關如何開始的好主意!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM