我想知道像Open Calais这样的语义服务如何从一段文本中找出公司或人员,技术概念,关键字等的名称。 是因为他们有一个大型数据库,他们匹配文本?

像Zemanta这样的服务如何知道对一段文字建议的图像?

===============>>#1 票数:9

来自OpenCalais的Michal Finkelstein在这里。

首先,感谢您的关注。 我会在这里回复,但我也鼓励您在OpenCalais论坛上阅读更多内容; 那里有很多信息,包括 - 但不限于: http ://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn也可以随时在Twitter上关注我们(@OpenCalais )或发送电子邮件至team@opencalais.com

现在回答:

OpenCalais基于自然语言处理和文本分析领域十年的研究和开发。

我们支持完整的“NLP Stack”(我们喜欢称之为):从文本标记化,形态分析和POS标记,到浅层解析和识别名词和语言短语。

当我们寻找实体(又名实体提取,命名实体识别)时,语义就会发挥作用。 为此,我们有一个复杂的基于规则的系统,它结合了发现规则以及词典/词典。 这种组合使我们能够识别公司/人/电影等的名称,即使它们不存在于任何可用列表中。

对于最突出的实体(例如人,公司),我们还在文章层面执行回指解决,交叉引用和名称标准化/规范化,因此我们将知道'John Smith'和'Mr. 例如,史密斯可能指的是同一个人。 所以对你的问题的简短回答是 - 不,它不只是与大型数据库匹配。

事件/事实真的很有趣,因为它们将我们的发现规则更深一层; 我们找到实体之间的关系并用适当的类型标记它们,例如M&A(两个或更多公司之间的关系),就业变化(公司和人之间的关系)等等。 毋庸置疑,对于仅基于词典的系统,事件/事实提取是不可能的。 在大多数情况下,我们的系统被调整为精确导向,但我们总是试图在准确性和整体性之间保持合理的平衡。

顺便提一下,本月晚些时候会出现一些很酷的新元数据功能,敬请期待。

问候,

米哈尔

===============>>#2 票数:7

我不熟悉列出的具体服务,但自然语言处理领域已经开发了许多技术,可以从一般文本中提取这种信息。 正如Sean所说,一旦你有了候选术语,在上下文中与其他一些实体搜索这些术语并不困难,然后使用该搜索的结果来确定你对提取的术语是一个实际实体的信心。利益。

如果你想玩自然语言处理, OpenNLP是一个很棒的项目。 您命名的功能可能最好通过命名实体识别器(NER)(一般定位专有名词的算法,有时也定义日期)和/或Word Sense Disambiguation(WSD)(例如:单词'bank')来完成。根据它的上下文有不同的含义,这在从文本中提取信息时非常重要。给出句子:“飞机左岸”,“雪库高”,“他们抢银行”,你可以看到消歧可以在语言理解中发挥重要作用)

技术通常是相互建立的,而NER是更复杂的任务之一,所以要成功地做NER,你通常需要准确的标记器(自然语言标记器,请注意 - 统计方法往往最好),字符串提取器(算法将相似的词汇与共同词根相混淆:所以像线人和线人这样的词被同等对待),句子检测('琼斯先生很高。'只有一个句子,所以你不能只检查标点符号),部分 - -speech taggers(POS标签)和WSD。

有一个名为NLTK( http://nltk.sourceforge.net )的(部分)OpenNLP的python端口,但我还没有太多经验。 我的大部分工作都是使用Java和C#端口,这些端口运行良好。

当然,所有这些算法都是特定于语言的,并且它们可能需要很长时间才能运行(尽管它通常比读取您正在处理的材料更快)。 由于最先进的技术主要基于统计技术,因此还需要考虑相当大的错误率。 此外,因为错误率影响所有阶段,并且像NER这样的事情需要多个处理阶段(标记化 - >句子检测 - > POS标记 - > WSD - > NER)错误率复合。

===============>>#3 票数:0

Open Calais可能使用语言解析技术和语言静态来猜测哪些单词或短语是名称,地点,公司等。然后,这只是对这些实体进行某种搜索并返回元数据的另一个步骤。

Zementa可能会做类似的事情,但会将这些短语与附加到图像的元数据相匹配,以获得相关结果。

这当然不容易。

  ask by translate from so

未解决问题?本站智能推荐:

2回复

我怎样才能让Zemanta和Redactor一起工作?

我正在尝试将Zemanta的小部件和Redactor HTML编辑器结合使用。 我无法让Zemanta找到Redactor的iframe/content并且能够在单击其中一个小部件后向其发送更新。 Redactor创建一个iframe ,但保持真正的textarea隐藏在幕后,我想在两者
5回复

用于从HTML页面中提取内容(不包括导航)的python方法

当然,HTML页面可以使用任意数量的python解析器进行解析,但我很惊讶,似乎没有任何公共解析脚本可以从给定的HTML doc中提取有意义的内容(不包括侧边栏,导航等) 。 我猜这是收集DIV和P元素,然后检查它们是否有最少量的文本内容,但我确信一个可靠的实现将包含许多我没有想到的东西。
1回复

为什么我在代理后面对这些内容引擎的调用失败?

我正在测试几个API,并且在Zemanta和OpenCalais之间尚未确定。 我可以在家里完美地使用它们,但是在代理背后的公司,它们将无法工作,即使在运行相同的示例时也是如此。 我正在运行这个例子 , 这两个都是Java。 如何设置代理以使其有效?
2回复

NLTK关系提取不返回任何内容

我最近正致力于使用nltk从文本中提取关系。 所以我建立了一个示例文本:“汤姆是微软的联合创始人。” 并使用以下程序测试并返回任何内容。 我无法弄清楚为什么。 我使用的是NLTK版本:3.2.1,python版本:3.5.2。 这是我的代码: 1.经过一些调试,如果发
1回复

Wordpress从我的帖子内容中删除相关的帖子

我在我的wordpress博客中使用与Zemanta相关的帖子进行SEO。 我安装成功。 在单个帖子页面(博客页面),它两次出现在右侧边栏作为一个小部件,另一个出现在我的帖子内容的底部。 有什么方法可以从帖子内容的底部而不是右侧栏的第二位删除它。
1回复

使用Google NL API和Open Calais API提取命名实体

我正在尝试从文本中识别命名实体,并将其分类为人员,地点和组织。 我正在使用Google提供的Cloud Natural Language API和Open Calais API来标识命名实体。 当我输入包含“中国”一词的文本时,Google NL API将其识别为“人”类型。 但是
1回复

一个元素中的内容如何影响语义,屏幕阅读器和搜索引擎?

假设我在博客的预览页面上有文章列表。 我希望每个条目的整个区域都是可单击的。 在HTML5中,这是带有有效标记的可能解决方案: 我的问题是: 这在语义上是关于w3定义的链接或文章,还是两者兼而有之? 搜索引擎和屏幕阅读器如何读取这些内容? 仅仅是链接还是他们将其视
1回复

没有标准库的语言引擎

有没有人知道语言引擎(编译器或解释器,AST,语法和基本语义),但没有标准库(希望甚至不是整数或算术)。 有这样的事吗? 我希望能够用C ++实现标准库。 这样的事情存在吗?
1回复

文字替换和搜索引擎优化

我一直在和一位设计师朋友聊天,讨论文本替换和seo。 我怀疑我坚持不对,但是我给人的印象是,向用户隐藏内容是不正确的做法。 我知道文字为王,内容与表现形式分开。 但是对我来说,这是一个灰色地带。 是否被认为是最佳实践(带有seo偏见)? 我认为没有一种比另一种更具语义,我怀疑自己会得到
1回复

内容的自动分类

我正在开发一个脚本,它从我所属的特定meetup.com组的消息档案中提取消息 - http://www.meetup.com/opencoffee/messages/archive/ 我们的想法是将这些动态添加到wordpress网站,并允许人们搜索消息,自动标记消息等。 我遇到的