繁体   English   中英

Python API 加载各种机器学习数据集?

[英]Python API to load various machine-learning datasets?

有没有人有一个 Python API 来获取各种 ML 数据集,沿线

X, Y, info = mldata.load( name, db=, verbose= )
X: N x dim data, a NumPy array
Y: N, ints for class numbers or None
info: a dict with ...

我更喜欢直接的 python 和 NumPy,但是如果 Rpy function 可以获取数据,那可能没问题(对不起,不要说太多 R)

对于“db”,一个平面文件就可以了,比如

#! http://archive.ics.uci.edu/ml/machine-learning-databases
# ncol  nrow  nclass  year  name               etc.
  3  2858  2  2008   "Character+Trajectories"  Time-Series     Classification, Clus
  4   150  2  1988   "Iris"    Multivariate    Classification  Real
  8   768  2  1990   "Pima+Indians+Diabetes"   Multivariate    Classification  Inte
...

为什么只是平面文件而不是“真实”数据库? 因为我可以下载一次,然后浏览、排序、awk 几乎是零的努力; 其他人可能更喜欢花哨的搜索引擎。

数据是存储在本地还是通过 web 加载对我来说是无关紧要的。 (两者都做,env MLDATAPATH =(本地目录... url...))?

(一个基本的 API 对于具有统一名称和统一数据的站点来说应该是微不足道的,但是统一例如 uci/ml 看起来是相当枯燥的工作。)

来自 Scikits.learn 的人们在Scikits.learn 示例中解决了这个问题

但是,数据集有各种形状和大小,因此它们确实具有用于处理每个数据集的自定义代码。 (如果你只有 CSV 或 ARFF 格式的数据集,而不是灰度图像等等,情况会有所不同)。

您可以检查此包/代码库以搜索和导入任何 UCI ML 存储库数据集。 它不会加载 Python object 中的数据集,而是自动从门户中搜索并下载您选择的数据集。 您甚至可以选择特定大小和 ML 任务类别的所有数据集。

https://github.com/tirthajyoti/UCI-ML-API

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM