繁体   English   中英

将您自己的文本数据集加载到scikit-learn

[英]Loading your own text dataset to scikit-learn

我想通过加载自己的数据集尝试一些算法。 我对加载文本文件特别感兴趣(非常类似于20个NewsGroups数据集http://scikit-learn.org/stable/datasets/index.html#general-dataset-api )。 是否有任何文档说明了样本数据集以外的数据加载格式(和过程)?

谢谢。

scikit-learn中的TfidfVectorizer和其他文本向量化器类仅将Python unicode字符串列表作为输入。 因此,您可以根据来源来按需要的方式加载文本:使用SQLAlchemy进行数据库查询,来自HTTP API的json流,CSV文件或文件夹中的随机文本文件。

对于最后一个选项,如果类信息存储在保存文本文件的文件夹名称中,则可以使用load_files实用程序功能。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM