![](/img/trans.png)
[英]Python scikit-learn: prediction on dataset with text and numeric variables
[英]Scikit-learn with a mix of text and numeric data
我有以下格式的数据以CSV格式提供给我(这是示例行,一万个)
FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16
每个文本字符串都类似于这种字符串。 对于数字相同。
我正在寻找一种基于与文本的相关性来预测数字的方法。
在scikit-learn中有什么方法可以做到这一点?
最好的选择是在字符串上生成一些聚合函数,并将这些聚合函数用作预测剩余值的功能。 简单集合函数的示例可以是每个字母的出现次数,长度,第一个字母,最后一个字母,最常见的字母,可能是每对字母之间的转换数等。
如果没有特定领域的背景知识,这是我能想到的最好的方法。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.