繁体   English   中英

自动标记单词或短语

[英]Automatic tagging of words or phrases

我想用列表中定义的单词/短语之一自动标记单词/短语。 我的列表在columnA中包含大约230个单词,这些单词在columnB中被标记。 大约有16个唯一标签,在这230个单词中,每个单词都用这16个标签之一进行了标签。

看看我的清单:

A列中的单词/短语在B列中标记为单词/短语。 在此处输入图片说明

有时会添加必须手动指定标签的新单词。 我想建立一个预测算法/模型来自动标记新单词(或建议)。 因此,如果我写了一个新单词,说“ MIP储备金”(A36),那么它应该将标签预测为“托管存款”(B36),而不是“运营储备金”(B33)。 即使单词与实际标签中的单词不匹配,如何准确预测新单词的标签? 如果有人愿意查看完整列表,我可以很高兴地分享。

简洁版本

我认为您的问题定义不明确,没有简短的编码或宏答案。 考虑到每个项目包含的信息很少,我认为不可能从您的源数据中建立良好的预测模型。 相反,请执行一次标记练习,并查看以后如何控制标记。

长版

这是我将要创建预测模型的步骤,以及为什么我认为您不能做到这一点。

  1. 了解为什么您要拥有一个预测程序

为什么需要预测性程序? 您是否正在整理数百或数千条记录,这些记录都在更改并且需要标记? 如果是这样,我同意,您不希望手动执行此操作。

如果这是一次性的练习,因为随着时间的流逝,标签已从其原始含义中被破坏了,那么您的问题就是标签已被破坏,而不是您需要以某种方式预测每个项目应在何处被标记。 您应该在控制标签的使用,而不是在预测未来的人们可能会如何为标签加标签或为名称错误。

不要忘记Excel中有很多工具可以使问题更容易解决。 假设您可以肯定地知道所有带有“现金”的项目都归入“运营现金”。 将自动筛选器放到列表中,并在单词“现金”上进行筛选-现在只需将“运营现金”复制并粘贴到所有这些旁边。 这样,您可以快速摆脱列表中明显的内容,而专注于棘手的内容。

  1. 了解您要使用的标签的特征。

花些时间看一下您使用的标签-每个标签是什么意思? 此标签代表什么独特功能或功能组合?

例如,您的标签“运营现金”具有现金(即没有捆绑在一起,因此可以很快使用)和专用于运营的特征。 从这些信息中,我们可能会得出其存放在某个地方或某个人对此负责的其他特征。

如果还有更多源数据可以使用,则可以使用“创建年份”或“客户”之类的字段来帮助您进一步分类。

  1. 了解您要标记的项目的含义,这可以使您了解它们应该去哪里。

这是你最大的问题。 一个简单的例子-字符串“ MIP Reserve”中的什么提供了应该与“托管存款”链接的线索? 您没有简单的方法来匹配列表中的许多项目-许多单词出现在多个标签的多个项目中。

但是,请尝试寻找可以为您提供线索的唯一标识符-例如,所有带有“开发者”一词的商品似乎都被标记为“开发者费用注释和利息”。 你还有这些吗? 使用它们可以减少问题,因为它们应该是直接的映射。

任何唯一的标识符都将允许您为这些字符串设置规则。 您甚至不需要坚持一个单词-也许当您看到几个单词时,您可以缩小它的结尾范围,例如当我看到“蛋”时,它可能会变成“鸟”或“爬行动物”,但是如果“鸡蛋”和“翅膀”配对,我可以完全确定它是“鸟”。

您需要将要标记的项目的特征与在步骤1中开发的标记的唯一标识符进行匹配。

  1. 编写程序或宏以在步骤2中查找标识符,并从步骤1返回相关标签。

这是直截了当的。 查找所需的标识符(例如,使用“现金”,包含标签“非常重要的客户”),并在之前的标签中寻找最佳匹配。

确保捕获任何错误-如果找不到标签会怎样? 它会创建一个新的吗? 是否建议与您联系以寻求帮助? 如果多个标签相关,该怎么办? 你的决胜标准是什么?

但是要注意...

  1. 了解如何控制这些唯一标识符的使用。

想象您以某种方式设法提出了一个唯一标识符列表。 您将如何控制它们的使用? 如果您决定将带有“现金”字样的任何物品发送到“运营现金”标签,然后在一年之内,有人来制作“资本现金”项目,因为他们想在某个地方存放即将花在资本项目上,您如何制止这种情况? 您将如何控制这些单词的使用?

您将有效地控制项目命名系统,并建立商定的识别词列表。 每当有人制造商品时,他们都需要在某些地方添加您的标识符。 我可以告诉你,这是行不通的。 他们要么使用错误的单词,否则您将最终以手动方式进行操作,或者他们会让您感到困惑,并且最终您将以手动方式进行操作。

如果您是唯一这样做的人,则按照您自己的标准(记录下来)练习一次并坚持该标准。 当您需要移交给它时,它会清晰地排序并且很有意义。 如果有多个人这样做,请在您和团队之间进行一次练习,然后商定一种控制方法。

编写预测性程序听起来不错,可能会节省您一些时间。 但是考虑一下为什么要编写它。 您将来可能需要不断标记帐户吗? 如果是这样,请集中控制其命名,并使其成为必需的标记。 如果没有,为什么要编写一个程序来做到这一点? 只需手动执行一次。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM