[英]Is it possible to use Feature Learning for Binary Text Classification?
我目前正在与CHILDES语料库一起尝试创建一个分类器,以区分遭受特殊语言障碍(SLI)的孩子和那些正在发育的孩子(TD)。
在我的阅读中,我注意到实际上还没有一套令人信服的功能来区分已经发现的两个功能,因此我想到了一个疯狂的想法,即试图创建一种可能会变得更好的功能学习算法。
这可能吗? 如果是这样,您如何建议我解决这个问题? 从我的阅读中,大多数功能学习都是在图像处理上完成的。 另一个问题是,除非我找到一种从子代获取更多成绩单的方法,否则我拥有的数据集可能太小而无法正常运行(在100年代)。
创建一个由带有三个标签的子文本组成的数据集:1-普通2- SLI 3- TD
因此,您将有3个标签。
您将数据集的40%留出20%用于开发,将20%用于测试。
然后,使用字符n-gram特征包运行LogisticRegression分类器(例如,使用scikit-learn)。 您可以通过scikit-learn中的TfidfVectorizer轻松完成此操作。
然后,在60%的训练集上训练模型,然后通过选择性能最佳的开发模型来调整超参数(例如,正则化强度)。
然后,使用所选的超参数再次进行训练,您将获得本示例中最重要的重要功能。
对于每个类别,它使您可以与每个标签关联的功能的权重,因此您将获得两种疾病中每种疾病的主要语言症状。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.