繁体   English   中英

如何为K最近邻居算法输入预聚类数据

How to input Pre-Clustered data for K-Nearest Neighbor algorithm

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我对我正在从事的项目有疑问。 我是RI的新手,我将不胜感激。

我在数据上使用k最近邻算法(使用类库中的knn函数)。 我读过某个地方,可以通过预先聚类数据来提高k近邻分类的效率。 我的问题是,如果我使用k均值对数据进行聚类,如何将数据输入到k最近邻算法? 是否输入kmeans函数的结果,即具有聚类均值的数据集,还是将分配的聚类与数据组合,然后分别在每个聚类上运行k最近邻? 请给一些指导。

我是该网站的新手,所以不确定如何正确地提出问题。 K最近邻居的代码如下。 数据有很多变量,因此我不打算赘述。

我正在尝试预测容易和困难病例的肺癌恶性肿瘤。 ClusterSIM(标签)具有2类0(简单)和1(硬)。

library(caret)
#Doing stratified Random Sampling
inTrain = createDataPartition(LIDC$ClusterSIM, p = 6.6/10, list = FALSE)

train1=LIDC[inTrain,]
train = train1[-65] #Removing the CLusterSIM (labels)column from training data
cc = train1[65] #creating a data.frame for ClusterSIM
c1 = as.vector(cc$ClusterSIM) # convert CLusterSIM (Labels) to a vector

test1 =LIDC[-inTrain,] #creating testing data
test = test1[-65] #removing labels from testing data

knn_predict = knn(train, test, c1, k=25)

#converting labels for testing data into factors so I can create a table.
test_val = test1[65]
test_val_factor = as.factor(test_val$ClusterSIM)

table(test_val_factor, knn_predict)
1 个回复

knn有几个库, class只是一个。 [*]

查看class::knn的文档,看来您不能给它加上前奏。

因此,搜索其他库。

[*]实际上,在R中,经常有几个竞争和不兼容的库来执行任何操作。

2 K最近邻居问题

嗨,我在尝试在代码中实现K最近邻居算法时遇到了麻烦。 我正在R中实现此功能,但只想了解其工作原理,因此我对代码的关注程度不像对过程那样担心。 我将发布我所拥有的,我的数据以及我的问题是什么: 到目前为止,在我的代码中: 为此,我使用以下公式计算“距离”: 那么其余算法 ...

4 k-最近邻居纲要

我正在尝试遵循 k-最近邻居的示例,但我不确定 numpy 命令语法。 我应该进行矩阵距离计算,给出的代码是 我的问题是sqDistances**0.5如何sqDistances**0.5距离方程((A[0]-B[0])+(A[1]-B[1]))^1/2 ? 我没有关注 tile 如何影响它,特 ...

6 K最近邻居验证性能

我正在使用knn对电信问题进行分类。 我将数据分为70%的训练和30%的验证。 尽管knn分类器在训练中能够在2个十分之一中捕获超过80%的数据,但其在验证样本中的表现却好于随机45度线。 令我感到惊讶的是,KNN如何工作,以至于模型在训练和验证中的表现是如此不同。 有指针吗? ...

8 K-最近邻居的“概率”,如分类

我在2D空间中有一小组数据点(大约10个),每个数据点都有一个类别标签。 我希望根据现有数据点标签对新数据点进行分类,并将属于任何特定标签类的“概率”关联起来。 是否适合根据标签将新点标记到最近的邻居(如K-最近邻居,K = 1)? 为了获得我希望置换所有标签的概率并计算未知点和其余部 ...

9 成对最近邻居搜索的高效算法

假设我在R^(n * d) n数据点的R^(n * d)中有一个数据集,每个数据点都具有d维。 我想计算k每个中的最近的邻居n点彼此之间,从而产生N^(n*k)所述的索引矩阵k每个的最近邻居n点。 注意, 这对于普通的最近邻居搜索是不同的,因为我们不需要为任意点计算最近邻居,而只需在原始n训 ...

10 返回2个或更多最近邻居的KNN算法

例如,我有一个向量x而a是最近的neigbour。 那么, b是它的下一个最近邻居。 Pyton或R中是否有任何输出类似于[a, b]这意味着a是它的最近邻居(也许以多数表决),而b是它的第二个邻居。 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM