[英]Python API to load various machine-learning datasets?
有没有人有一个 Python API 来获取各种 ML 数据集,沿线
X, Y, info = mldata.load( name, db=, verbose= )
X: N x dim data, a NumPy array
Y: N, ints for class numbers or None
info: a dict with ...
我更喜欢直接的 python 和 NumPy,但是如果 Rpy function 可以获取数据,那可能没问题(对不起,不要说太多 R)
对于“db”,一个平面文件就可以了,比如
#! http://archive.ics.uci.edu/ml/machine-learning-databases
# ncol nrow nclass year name etc.
3 2858 2 2008 "Character+Trajectories" Time-Series Classification, Clus
4 150 2 1988 "Iris" Multivariate Classification Real
8 768 2 1990 "Pima+Indians+Diabetes" Multivariate Classification Inte
...
为什么只是平面文件而不是“真实”数据库? 因为我可以下载一次,然后浏览、排序、awk 几乎是零的努力; 其他人可能更喜欢花哨的搜索引擎。
数据是存储在本地还是通过 web 加载对我来说是无关紧要的。 (两者都做,env MLDATAPATH =(本地目录... url...))?
(一个基本的 API 对于具有统一名称和统一数据的站点来说应该是微不足道的,但是统一例如 uci/ml 看起来是相当枯燥的工作。)
来自 Scikits.learn 的人们在Scikits.learn 示例中解决了这个问题
但是,数据集有各种形状和大小,因此它们确实具有用于处理每个数据集的自定义代码。 (如果你只有 CSV 或 ARFF 格式的数据集,而不是灰度图像等等,情况会有所不同)。
您可以检查此包/代码库以搜索和导入任何 UCI ML 存储库数据集。 它不会加载 Python object 中的数据集,而是自动从门户中搜索并下载您选择的数据集。 您甚至可以选择特定大小和 ML 任务类别的所有数据集。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.