繁体   English   中英

Apache Tika入门?

[英]Getting started with Apache Tika?

我想编写一个使用Apache Tika来下载网页文本内容的Java Web爬虫,但是我是使用Apache项目的新手,但我还没有找到确切的资料来阐明如何将Tika准确地集成到程序中。 根据我从Internet上收集到的信息,我已经在命令行中使用Maven构建了Tika,但是我不确定从哪里可以在Java程序中使用Parser等Tika类(?)。 我正在使用Eclipse(如果有所作为)-我也已经安装了Eclipse的Maven插件,但是我不确定如何处理它...我需要输入“ ...”行吗? 请原谅我的“初学者”问题,但逐步使用Tika的逐步指南将不胜感激。

首先,您需要通读Apache Tika入门指南 ,其中包括如何将Tika包含在您的项目中。 (这假设您具有将第三方jar包含到您自己的项目中的一些基本知识,否则,您需要阅读一些有关它的教程)

在您的项目中开始使用Tika的最简单方法是通过Tika Facade课程 这提供了一个单一类,可用于检测,将其解析为纯文本字符串以及通过阅读器将其解析为xhtml,这些均来自各种来源。 那里提供所有基础知识。

要进行更高级的使用,您需要遵循Parser API页面Content Detection页面上给出的信息。 您还可以使用AutoDetectParser来解析Tika示例 ,它应该可以完成您想做的事情,否则, 请浏览带有注释的Tika示例注释列表,以获取有关如何开始的好主意!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM