繁体   English   中英

BERT 初学者文本分类任务

[英]BERT Text Classification Tasks for Beginners

任何人都可以用简单的术语列出为从事第一个项目的 CS 新手构建 BERT 文本分类器所涉及的任务吗? 我的工作涉及获取一段长度的人道主义援助活动描述列表(在 CSV 文件中带有相应的标题和部门代码),并使用单独的部门代码列表及其句子长描述构建一个能够为描述分配部门代码的分类器。 对于训练、测试和评估,我会将分类器生成的代码与 CSV 文件中的代码进行比较。

对帮助我制作项目任务清单所涉及的高级任务/步骤有什么想法吗? 我启动了一个谷歌 CoLab 笔记本,制作了两个 CSV 文件,将它们放在谷歌云存储桶中,我想我必须提取文件,标记数据和 ? 理想情况下,我也想坚持使用 Google 工具。

正如评论所说,我建议您从博客或教程开始。 使用tensorflow BERT模型的常见任务是使用tensorflow_hub 你有 2 个模块: BERT preprocessorBERT encoder Bert 预处理器准备您的数据(使用标记化),下一个将数据转换为数学语言表示。 如果您尝试在 2 个话语之间使用余弦相似度,我不得不说, BERT不是为这种类型的过程而设计的。 使用BERT作为达到目标的步骤是正常的,而不是目标本身。 也就是说,构建一个使用BERT的模型,但一开始,只使用BERT来了解它是如何工作的。

BERT 预处理

它有多个键(它的输出是一个字典):

dict_keys(['input_mask', 'input_type_ids', 'input_word_ids'])

分别有“令牌在哪里”、“输入的形状”和“它们的令牌数量”

BERT 编码器

它有多个键(它的输出是一个字典):

dict_keys(['default', 'encoder_outputs', 'pooled_output', 'sequence_output'])

按照顺序,“与 pooled_output 相同”、“编码器的输出”、“每个话语的上下文”、“话语中每个标记的上下文”。

看看这里(搜索bert)

还要看我提出的这个问题

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM