简体   繁体   English

文本分类 - 多个训练数据集

[英]Text Classification - Multiple Training Datasets

Would there be “dilution” of accuracy if I train the same text classification model with multiple training datasets?如果我用多个训练数据集训练相同的文本分类 model,准确性会“稀释”吗? For example, my end users would be providing (uploading) their own tagged CSVs to train the model and use the trained model in the future.例如,我的最终用户将提供(上传)他们自己的标记 CSV 来训练 model 并在未来使用训练后的 model。 The contexts of datasets would be different - L&D, Technology, Customer Support, etc.数据集的上下文会有所不同——L&D、技术、客户支持等。

If yes, how do I have a “separate instance or model” for each user?如果是,我如何为每个用户创建一个“单独的实例或模型”?

I am using Python and would possibly use Gradio or Streamlit as the UI.我正在使用 Python 并且可能会使用 Gradio 或 Streamlit 作为 UI。 Open to advice.接受建议。

I ended up using huggingface's zero-shot classification.我最终使用了拥抱脸的零样本分类。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM