我正在寻找一个现有的库来总结或解释内容(我的目标是博客文章) - 对现有自然语言处理库的任何经验?

我对各种语言持开放态度,所以我对能力和准确性更感兴趣。

===============>>#1 票数:10

有一些关于Grok的讨论。 现在支持OpenCCG,也将在OpenNLP中重新实现。

您可以在http://openccg.sourceforge.net/找到OpenCCG。 我还建议使用Curran和Clark CCG解析器: http//svn.ask.it.usyd.edu.au/trac/candc/wiki

基本上,对于释义,你需要做的是写出一些东西,首先解析博客文章的句子,提取这些帖子的语义,然后在词汇空间中搜索,这将构成相同的语义意思,然后选择一个与当前句子不匹配的。 这将需要很长时间,可能没有多大意义。 不要忘记,为了做到这一点,你将需要近乎完美的回指分辨率和接受话语层次推断的能力。

如果您只是想制作没有机器可识别的重复内容的博客文章,您可以随时使用主题和焦点转换以及WordNet同义词。 肯定有一些网站已经从AdWords中赚钱,之前已经这样做了。

===============>>#2 票数:5

我想他想通过自动解释这个系统正在监控的博客来生成博客文章。

如果您可以组合2到10个相似的博客文章,但是来自不同的来源,然后自动进行释义的“真实”摘要(1篇博文的大小),这将非常有趣。

它也可能对Homeworks来说很棒。 不幸的是,这并不容易。

我能看到的唯一方法是能够将每个句子分解为“含义”,然后随机改变句子结构和一些保留含义的词。

这些句子意思相同:

  • 我讨厌这个人,他是如此愚蠢。
  • 这家伙很蠢,我讨厌他。
  • 我鄙视这个愚蠢的家伙。
  • 他很笨,我讨厌他。

编写一个程序将这些句子中的一个转换为其他句子将是非常重要的,这些是简单的句子,来自博客的真实句子要复杂得多。

===============>>#3 票数:0

可能想尝试GATE或封闭源,专有和昂贵的TextAnalyst COM API

===============>>#4 票数:0

你进入了非常远的AI类型域。 我主要使用Attempto Controlled English(请参阅: http ://attempto.ifi.uzh.ch/site/)在文本转换为机器知识方面做了大量的工作,它是一种完全由计算机处理的自然语言(英语)。不同的本体,例如OWLDL。

好像那样我们会有点矫枉过正...

有没有理由不只是在你的博客文章的前几句话,然后为你的摘要附加一个椭圆?

===============>>#5 票数:0

谢谢你们的链接。 看起来GROK已经死了 - 但它仍然可以用于我的目的。

另外2个链接:

Attempto Controlled English是一个有趣的概念:因为它是一种完全相反的方式来查看问题。 对于我想做的事情来说并不实用。

@mmattax关于采取几句话的建议 - 我不是要提出一个总结:否则这将是一个很好的柔道解决方案。 我希望实际总结用于其他评估目的的内容。

  ask by jeffreypriebe translate from so

未解决问题?本站智能推荐:

5回复

了解自然语言对编程有帮助吗?

我们都听说数学至少对编程有所帮助。 我的问题是,英语或其他自然语言技能是否有助于编程? 我知道它必须有助于技术文档,但实际编程呢? 编程语言中的某些结构是否也存在于自然语言中? 知道如何编写20页的研究论文是否有助于编写20k loc编程项目?
3回复

为什么没有英语编程? 自然语言和编程语言之间有什么区别?

自然语言(例如英语和法语)与编程语言(例如C ++和Perl)之间的主要区别是什么? 我对歧义性问题很熟悉,但是不能使用交互式编译器或使用严格的语法使用自然语言的子集来解决它,但始终保持语言的本质吗? 另一个问题是上下文。 但是律师有办法解决这个问题。 (这个问题不是关于降低编程
1回复

Hobbs的Coref Resolution算法[关闭]

我已经实现了Hobbs的回指解析算法以及Lappin&Leass的替代排名。 让我感到困惑的是,算法的描述是完全非正式的,并且由于我的实现没有正确解决句子,我不确定限制是在我的实现还是在实际算法上。 这是我在Jurafsky&Martin找到的版本: 从名词短语(NP
6回复

英语的“停止词汇”列表? [关闭]

我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的词,比如“a”和“the”。 我在哪里可以找到这些无趣的单词列表? 这些单词的列表是否与英语中最常用的单词列表相同? 更新:这些显然被称为“停止词”而不是“跳过词”。
7回复

日语/字符的编程技巧[关闭]

我想编写一些Web应用程序来帮助我,也许还有其他一些应用程序,因为我正在学习日语,因此可以更好地学习日语。 我的问题是该站点将大部分使用英文,因此需要将流利的日语字符混合在一起,通常是平假名和片假名,但后来是汉字。 我正在接近完成这一目标。 我发现页面和源文件必须是unicode和ut
8回复

一个StringToken Parser,它提供Google搜索样式“你的意思是:”建议

寻求一种方法: 在字符串中取空格分隔的标记; 返回建议的单词 即: Google搜索可以采用“fonetic wrd nterpreterr” , 在结果页面的顶部显示“你的意思是:语音词解释器” 任何C *语言或Java的解决方案都是首选。 是否有任何现有的O
2回复

使用语言检测进行多语言拼写检查

我正在进行混合语言网页的拼写检查,但未能找到有关该主题的任何现有研究。 目的是在混合语言网页中自动检测句子级别的语言,并自动对其语言进行拼写检查。 假设我们可以忽略将多种语言混合在一起的句子(例如“他有一定的知识”),并假设网页不能包含超过2或3种语言。 琐碎的例子(威尔士语+英语
2回复

拉丁语基础语言分割语法规则

我正在研究一个功能,即为拉丁语言(当前英语)应用语言分词规则(语法)。 目前我处于打破用户输入句子的阶段。 在上面的例子中,我将以句号(。)突破句子这是正常情况下我在点上打破句子,但是有很多字符用于打破句子,如(。!?etc)。 我有遵循SRX规则进行细分。 我的问题是
1回复

生成等效短语的资源(相同的语言翻译)?

我有兴趣构建一个带有一些文本的程序(例如一篇文章),然后生成一个具有相同含义的新文本,但我不知道如何开始解决这个问题。 任何人都可以推荐一些有助于我解决此问题的代码/书籍/论文/技巧吗?
3回复

有一个很好的自然语言处理库[关闭]

我需要在当前模块中实现一些NLP。 我正在寻找一些可以帮助我的好图书馆。 我遇到了'LingPipe',但无法完全遵循如何使用它。 基本上,我们需要实现一个功能,其中应用程序可以解释用简体中文输入的客户指令(交付说明)。 例如: 将于明天中午12点起床 请在6月10日