结合了文本和数字数据的Scikit学习

Question

我有以下格式的数据以CSV格式提供给我（这是示例行，一万个）

FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16

每个文本字符串都类似于这种字符串。 对于数字相同。

我正在寻找一种基于与文本的相关性来预测数字的方法。

在scikit-learn中有什么方法可以做到这一点？

Answer 1

最好的选择是在字符串上生成一些聚合函数，并将这些聚合函数用作预测剩余值的功能。 简单集合函数的示例可以是每个字母的出现次数，长度，第一个字母，最后一个字母，最常见的字母，可能是每对字母之间的转换数等。

如果没有特定领域的背景知识，这是我能想到的最好的方法。