繁体   English   中英

如何在涉及多个功能时处理文本分类问题

[英]How to handle text classification problems when multiple features are involved

我正在研究一个文本分类问题,其中有多个文本功能,需要建立一个模型来预测薪资范围。 请参考Sample数据集大多数资源/教程仅处理一列上的特征提取,然后预测目标。 我知道文本预处理,特征提取(CountVectorizer或TF-IDF)等过程,然后是应用算法。

在这个问题中,我有多个输入文本功能。 如何处理多个功能时的文本分类问题? 这些是我已经尝试过的方法,但我不确定这些是否是正确的方法。 请提供您的意见/建议。

1)分别对每个特征应用数据清理,然后进行TF-IDF,然后进行逻辑回归。 在这里,我试着看看我是否只能使用一个功能进行分类。

2)分别对所有列应用数据清理,然后对每个特征应用TF-IDF,然后合并所有特征向量以仅创建一个特征向量。 最后是逻辑回归。

3)分别对所有列应用数据清理并合并所有已清理的列以创建一个功能“merged_text”。 然后在此merged_text上应用TF-IDF,然后进行逻辑回归。

所有这三种方法在交叉验证和测试集上给出了大约35-40%的准确度。 我期望在未提供的测试装置上至少达到60%的准确度。

另外,我不明白如何使用'company_name''体验'文本数据。 company_name中有大约2000多个唯一值。 请提供有关如何处理文本分类问题中的数字数据的输入/指针。

试试这些:

  1. 在“职位描述”,“职位指定”和“关键技能”上应用文本预处理。 删除所有停用词,将每个单词分开删除标点,小写所有单词然后应用TF-IDF或Count Vectorizer,不要忘记在训练模型之前缩放这些功能。

  2. 将体验转换为最低体验和最大体验2个功能和处理是一个独立的数字功能。

  3. 在训练模型之前,可以将公司和位置视为分类特征并创建虚拟变量/一个热编码。

  4. 尝试结合工作类型和关键技能,然后进行矢量化,看看它是如何更好地工作。

  5. 使用随机森林回归器,使用GridCV调整超参数:n_estimators,max_depth,max_features。

希望这些可以提高模型的性能。

让我知道这些是如何表现的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM