
[英]How preprocessing unseen data with OneHotEncoder and LabelEncoder so that matchs the train set?
[英]How do I deal with preprocessing and with unseen data in a NLP problem?
假设我已经预处理了一些文本数据,去除了停用词、网址等。
我应该如何构建这些清理过的数据,以便使它们可用于神经网络等分类器? 是否有首选结构或经验法则? (词袋,tf-idf 或其他任何东西?)另外,你能推荐一些可以自动在 python 中完成所有工作的包吗?
现在我训练模型,一切正常。 该模型在测试集上也表现良好。
我必须如何处理看不见的数据? 当我决定在现实生活项目中实现模型时,它会遇到新数据:我是否必须存储用于训练的结构(如 tf-idf 结构)并将其应用于这些新数据? 另外,假设在训练/验证/测试数据中没有“hello”这个词,所以它没有表示。 我必须分类的一个现实生活句子包含“你好”这个词我该如何处理这个问题?
感谢您的所有澄清。
你可以做什么来创建一个类并在里面定义函数
你可以按照下面的代码来理解
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.