基于标签的网站通常会遭受诸如同义词,同名异义等语言的精致问题。对于正在寻找信息的程序员,例如在Stack Overflow上说,具体示例如下:

  • Subversion或SVN(或svn,带有区分大小写的标签)
  • .NET或Mono
  • [将添加更多]

问题是我们确实想保留语言的精致性,并让机器尽可能地处理它。

像del.icio.us这样的网站发现其标签库增长很多,因此可能会妨碍其使用或搜索。 搜索与SVN相关的条目可能会列出大多数带有subversion和svn标签的条目,但是我可以想到三个问题:

  1. 搜索不完整,因为许多条目可能没有两个标签(它们是“同义词”)。
  2. 搜索的用处不大,因为“问/答”经常导致更多的“问”! 尤其适合给定主题的新手。
  3. 标记问题(注:或单独回答,听起来很有用)变得具有哲学意义:“我标记了正确的方式吗?”

解决这些问题的一种方法是在标签之间创建语义链接,以使Subversion和SVN由系统自动绑定,而不是由不良用户绑定。

这听起来不错/可行/有吸引力/有用吗? 如何有效实施?

===============>>#1 票数:3

; 识别同义词和语义联系是事情; 通过寻找一种将匹配结果留给人类的方法,可以很好地解决组织像SO具有特色的开放式分类法的问题。

tags on a daily basis. 一种通用方法:某人(或某些团队)每天检查标签。 新的同义词将添加到同义词组。 搜索命中的同义词组(或更细微的选择,根据用户喜好命中文字匹配或同义词组匹配)。

这需要在后端支持同义词组(开发团队的工作)。 它需要一个标签争吵者或十个(负责人或可信任用户的工作)。 require constant scaling, though—the rate at which the total tag pool grows will likely (after the initial Here Comes Everybody bump of the open beta) will in all likelihood over time, as any organic lexicon's growth-rate does. 固定的缩放,虽然-的在其总标签池的增长将有可能(在初始这里来公测大家凹凸)将在所有的可能性随着时间的推移,任何有机词汇的增长速度的确率。

同义词使我成为热门话题。 层次映射是一个雄心勃勃且更为复杂的问题。 也许值得,也可能不值得,但是考虑到定义层次结构的相对复杂性,最好将其作为任何潜在的同义词项目的第1阶段的第2阶段。

===============>>#2 票数:1

设置blogspot.com上软件的方式是,在包装盒上写下ajax-autocomplete-thingie,在其中写下标签名称。 这会在您以前的所有帖子中搜索以相同字母开头的标签。 至少这样可以捕获不同的大小写和拼写(但不能包含同义词)。

===============>>#3 票数:1

我完全同意。 当前具有的标签数量。 我不参与其他基于标签的网站。 但是,具有标记层次结构将非常有帮助,而不是使用 等。

===============>>#4 票数:1

系统如何知道要语义链接的标签? 它会保留不断增长的标签图吗? 我看不到有效果。 如果有人键入sbversion怎么办? 那将如何链接?

我认为询问用户何时提交标签是可行的。 例如,“您输入了以下标签:sbversion,pascal和bindings。您是说,“ Subversion”,“ Pascal”和“ Bindings”吗?

显然,该系统必须具有一个相当智能的匹配系统才能运行。 这样做会给用户带来额外的输入(这可能会使他们烦恼),但是如果正确完成,人工输入将减少重复的标签。

实际上,综上所述,系统可以将用户输入的结果用作自动标签匹配的基础。 在前面的示例中,有人创建了“ sbversion”标签,并在提示时将其更改为“ Subversion”-系统可以了解该信息并在下次自动执行。

===============>>#5 票数:1

您正在查看的问题的一部分是英语中充斥着同义词-以下内容是否不同:构建管理,Subversion,CVS,源代码控制?

也许吧,也许不是。 拥有一个系统(例如SO上正在使用的系统)可以显示您可能想要的标签,这将非常有帮助。 但这并不能阻止人们在标记过程中大肆宣传。

也许您可以在没有用户交互的情况下拒绝接受“新”标签? 在让“恶意攻击”进入之前,强制进行拼写检查吗?

这绝对是一个有趣的问题。 去年,我在博客上提出了一个与此类似的公开问题。 几个回复非常有见地。

===============>>#6 票数:0

基本上,标签是我们承认搜索算法的不足。 如果我们可以使计算机足够智能以识别标记为“ Subversion”的事物与标记为“ svn”的事物具有相似的内容,则可以解析内容,那么为什么不完全跳过标记并将搜索词直接与内容(即自动标记,基本上就是将关键字映射到结果)?

===============>>#7 票数:0

问题是要使搜索引擎使用“ subversion”和“ svn” 它们表示相同“事物”的观点非常相似的事实。

计算基于频率的标记之间的简单相似性可能很有吸引力:“ subversion”和“ svn”经常一起出现,因此请求“ svn”将返回与SVN相关的问题,但罕见的问题仅标记为“ subversion”(反之亦然)。 但是,“ java”和“ c#”也经常出现在一起,但是原因却非常不同(它们不是同义词)。 因此,基于频率的相似性就消失了。

这个问题的答案可能是多种机制的混合,如此Q / A线程中所建议的:

  • 用户输入标签时通过建议标签来过滤错别字。
  • 维护用户生成的同义词映射。 如果仅以同义词为目标,则此地图可能不会太大。
  • 允许多标签搜索,以便用户可以在搜索框中输入“ subversion svn”或“ subversion && svn”(从程序员到程序员)。 这将是非常实用的,因为许多用户在不知道哪个术语最有意义时可以实际尝试这种方法。

@尼克:同意。 这个问题并不意味着要反对标签。 标签具有巨大的潜力,但是如果人们无法搜索“跨”标签,用户将面临越来越多的问题。

@Steve:维护不断增长的标签绝对是不切实际的。 随着SO不断积累越来越多的标签 ,我们如何才能方便地在此袋上遮盖一些光线,以使对Q / A标签的搜索更加有用?

@Espo:创建问题时,显然可以在SO上使用基于现有标签的“ Ajax驱动”标签建议。 顺便说一下,这对于选择标签和适当的拼写非常有帮助(避免了Steve的“ subversion”和“ sbversion”问题)。

  ask by Eric Platon translate from so

未解决问题?本站智能推荐:

4回复

在Folksonomies中搜索。 如何解决同义词问题?

有人可以阐明在诸如del.icio.us之类的网站上如何进行搜索吗? 如果我输入“ js”(1),“ javascript”(2)或“ java脚本”(3)作为对Delicious的查询,则指向有关Java Script的资源。 但是,根据查询,返回的结果集是不同的(del.icio.u
1回复

PHP-民俗标签检查正则表达式

我正在尝试创建一个正则表达式来检查自由格式民俗分类系统的已提交标签的值。 这就是我现在所拥有的。 我要允许:连字符,反斜杠,正斜杠,az,AZ,0-9,句号,下划线,符号和单引号,并禁止所有其他字符。 我敢肯定,否定的字符类是解决这个问题的方法。 但是我上面的代码似乎允许其
1回复

Postgres查询以列出所有与某些标签匹配的项目的所有民俗标签

我正在一个Postgres数据库中存储可标记的项目; 为此,它使用典型的约束条件(表用于具有item_id的项,表用于具有tag_id和tag_name的标记,给定项具有给定标记的每个实例的表)。 我已经组装了这个查询,该查询几乎可以完成我想要的工作,以检索与至少一个选定标签匹配的项目并显示
1回复

图像收集的语义技术/体系结构(用于Web应用程序)

是语义技术的新手,并且已经阅读了很多有关语义表示结构( 概念网 , (xml)主题图 , 语义网 , 本体 , 描述逻辑以及诸如RDF(S) , OWL(S) , SPARQL等语义Web技术 )的知识。 ,我目前很困惑我当前的应用程序要求使用什么语义技术: 目标:一个网络应用程序,使用众
1回复

从输入中变得流行或相关的单词用作标签

我们都知道标记SO是如何工作的。 我们发布一个帖子,将其标记为标签,它有助于搜索,并用于民意测验。 这就是我要做的。 我可以用某种方式从帖子中获取相关单词以用作标签,而不是强迫人们标记帖子。 除了说出重复的单词外,还有没有一种方法可以从帖子中获取相关的单词? 也许是一种语言解析
1回复

自动组织税务/民意调查中的标签

我正在研究一种流程,该流程将在我们一个或可能几个内容丰富的网站上执行自然语言处理 (NLP)。 NLP完成后,我想做的是将输出(通常是在隐喻盛行的情况下,您可能会想到的一组术语)组织为某种标准或普遍接受的组织结构。 在一个理想的世界中,我真的希望这是根据“民间分类法”概念(而不是分类法)
1回复

导致DIV消失的Expression Engine标签! 我该如何解决?

我正在使用Expression Engine开发网站。 我已经在模板文件中创建了想要的页面,现在我利用EE的标签使内容动态化。 上面的代码使我的DIV消失了。 但是,如果我删除标签,则会显示DIV。 同样值得注意的是,当标签位于其中并且单击“查看呈现的模板”时,DIV会显示出来
2回复

Bootstrap和HTML5语义标签

我开始使用Twitter Bootstrap并遇到了一个问题。 最近浏览了一些关于HTML5的教程,并发现了关于语义元素,如标题,导航,页脚等应该用来代替Div。 现在,在学习Bootstrap时,他们中的大多数都使用Div标签。 那么Bootstrap Div标签或HTML5
1回复

任何解决方案都无法执行 标签(包含$ values)? [重复]

这个问题已经在这里有了答案 : 6年前关闭。 可能重复: 如何在php中正确转义html表单输入默认值? 我在面对</textarea>元素时遇到问题。 我正在对
2回复

如何解释标签?

如何像在joomla中一样解释自己在PHP中的标签? 这是joomla模板文件的一部分: