繁体   English   中英

在简历 (NER) 中标记自定义实体

[英]Label custom entities in Resume (NER)

我如何为自定义命名实体执行 NER。 例如,如果我想确定特定单词是否是简历中的技能。 如果 (Java, c++) 出现在我的文本中,我应该能够将它们标记为技能。 我不想在自定义语料库中使用 spacy。我想创建数据集,例如,单词将是我的特征,而标签(技能)将是我的因变量。

处理这些问题的最佳方法是什么。

自定义词典和公报的替代方法是创建一个数据集,您可以在其中为每个单词分配相应的标签。 您可以定义一组标签(例如 {OTHER, SKILL})并使用以下示例创建数据集:

I        OTHER
can      OTHER
program  OTHER
in       OTHER
Python   SKILL
.        OTHER 

有了足够大的数据集,你就可以训练一个模型来预测相应的标签。

您可以尝试从在您的简历语料库上训练的词嵌入中获取“编码语言”同义词列表(或您正在寻找的特定技能),并使用此信息自动标记其他语料库。 我会说关键点是找到一种至少部分自动化标记的方法,否则您将没有足够的示例来在您的自定义 NER 任务上训练模型。 使用诸如https://prodi.gy/ 之类的工具来减少标记工作。

作为特征,您还可以使用词嵌入(或其他典型的 NLP 特征,如 n-gram、POS 标签等,具体取决于您使用的模型)

另一种选择是应用来自其他 NER/NLP 模型的迁移学习,并在您的 CV 标记数据集上对其进行微调。

我会投入更多精力创建正确的数据集,然后逐渐测试更复杂的模型,选择最适合您需求的模型。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM