繁体   English   中英

在提供的网页之上创建知识库作为提要

[英]Creating a knowledge base on top of provided webpages as a feed

我在最后一年的项目中遇到了一些问题。 我们正在实施一个抄袭检测框架。 我正在研究互联网资源检测部分。 目前我的互联网搜索算法已经完成。 但我需要增强它,以减少互联网搜索延迟。

我的想法是这样的:

提示第一个用户插入一些 web 链接作为系统的初始知识源。 然后它通过互联网爬行并扩展它的知识

一旦知识被获取系统不需要再次查询互联网。 有人可以为我提供一些指导来实施它吗? 我们正在使用 Java。 但是任何抽象的细节肯定会对我有所帮助。

如果服务器端编程是您的手,那么您可以管理一个在数据库中具有 boolean 的表格,该表格显示之前是否已阅读详细信息。 每次您的客户端连接到服务器时,它都会首先检查 boolean 如果 boolean 设置为 false 那么这意味着需要向客户端发送更新,否则不会发送更新,

每次客户端从服务器下载任何数据时,boolean 都会变为真,并且在数据库更新时变为假

我不太确定我明白你在问什么。 反正:

  • 如果您正在寻找 Java Web 爬虫,那么我建议您阅读此问题

  • 如果您正在寻找 Java 库来构建知识库 (KB),那么它实际上取决于 (1) 您的 KB 应该具有什么样的属性,以及 (2) 您期望从 KB 中获得什么样的推理能力。 一种选择是使用Jena 框架,但这需要您熟悉 Semantic Web 形式。

祝你好运!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM