繁体 English 中英

如何在涉及多个功能时处理文本分类问题

[英]How to handle text classification problems when multiple features are involved

原文 2018-12-26 07:56:39 6 1 python/ nlp/ feature-extraction/ text-classification

我正在研究一个文本分类问题，其中有多个文本功能，需要建立一个模型来预测薪资范围。 请参考Sample数据集大多数资源/教程仅处理一列上的特征提取，然后预测目标。 我知道文本预处理，特征提取（CountVectorizer或TF-IDF）等过程，然后是应用算法。

在这个问题中，我有多个输入文本功能。 如何处理多个功能时的文本分类问题？ 这些是我已经尝试过的方法，但我不确定这些是否是正确的方法。 请提供您的意见/建议。

1）分别对每个特征应用数据清理，然后进行TF-IDF，然后进行逻辑回归。 在这里，我试着看看我是否只能使用一个功能进行分类。

2）分别对所有列应用数据清理，然后对每个特征应用TF-IDF，然后合并所有特征向量以仅创建一个特征向量。 最后是逻辑回归。

3）分别对所有列应用数据清理并合并所有已清理的列以创建一个功能“merged_text”。 然后在此merged_text上应用TF-IDF，然后进行逻辑回归。

所有这三种方法在交叉验证和测试集上给出了大约35-40％的准确度。 我期望在未提供的测试装置上至少达到60％的准确度。

另外，我不明白如何使用'company_name'和'体验'文本数据。 company_name中有大约2000多个唯一值。 请提供有关如何处理文本分类问题中的数字数据的输入/指针。

1 个解决方案

试试这些：

在“职位描述”，“职位指定”和“关键技能”上应用文本预处理。 删除所有停用词，将每个单词分开删除标点，小写所有单词然后应用TF-IDF或Count Vectorizer，不要忘记在训练模型之前缩放这些功能。
将体验转换为最低体验和最大体验2个功能和处理是一个独立的数字功能。
在训练模型之前，可以将公司和位置视为分类特征并创建虚拟变量/一个热编码。
尝试结合工作类型和关键技能，然后进行矢量化，看看它是如何更好地工作。
使用随机森林回归器，使用GridCV调整超参数：n_estimators，max_depth，max_features。

希望这些可以提高模型的性能。

让我知道这些是如何表现的。

如何在使用多个文本输入功能运行机器学习二元分类时估算缺失值

[英]How to Impute Missing Values When Running Machine Learning Binary Classification Using Multiple Text Input Features

如何在Keras中使用自定义功能进行文本分类

[英]How use custom features in Keras for text classification

如何减少文本分类中的功能数量？

[英]How to reduce the number of features in text classification?

将文本特征分解为分类

[英]Factorizing text features for classification

文本分类 - 如何将多个字符串特征转换并拟合到机器学习模型中？

[英]Text Classification - How to transform and fit multiple string features into a machine learning model?

如何将不同特征组合并提供给文本分类算法

[英]how to combine and feed different features to an algorithm for text classification

将额外的数字特征合并到文本分类模型中

[英]Incorporating additional numeric features into text classification model

合并数字和文本功能以进行类别分类

[英]Merge numeric and text features for category classification

组合不同类型的功能（文本分类）

[英]Combine different types of features (Text classification)

多个标签的文本分类

[英]Text Classification for multiple label

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在使用多个文本输入功能运行机器学习二元分类时估算缺失值如何在Keras中使用自定义功能进行文本分类如何减少文本分类中的功能数量？将文本特征分解为分类文本分类 - 如何将多个字符串特征转换并拟合到机器学习模型中？如何将不同特征组合并提供给文本分类算法将额外的数字特征合并到文本分类模型中合并数字和文本功能以进行类别分类组合不同类型的功能（文本分类）多个标签的文本分类

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM