[英]Why I am getting NaN when I toggle the loop?
我正在尝试在javascript中编写k-means函数。 这是我的代码。
function kmeans(arrayToProcess,cluster_n){
var pointDimension = arrayToProcess[0].length;
var ClusterResult = new Array();
var ClusterCenter = new Array();
var oldClusterCenter = new Array();
var changed=false;
for(var i = 0;i<cluster_n;i++)
ClusterCenter.push(arrayToProcess[randomInt(arrayToProcess.length-1)]);
console.log(ClusterCenter);
// do{
for(var k=0;k<50;k++){//loop
for(var i = 0; i<cluster_n; i++){
ClusterResult[i] = new Array();
}
for(var i = 0; i<arrayToProcess.length; i++){
//for every point element
var oldDistance=-1;
var newClusterNumber = 0;
for(var j = 0; j<cluster_n; j++){
//for every cluster
var distance = Math.abs(computeDistanceBetween(arrayToProcess[i], ClusterCenter[j]));
if (oldDistance == -1){
oldDistance = distance;
newClusterNumber = j;
}else if ( distance <= oldDistance ){
newClusterNumber = j;
oldDistance = distance;
}
}
ClusterResult[newClusterNumber].push(arrayToProcess[i]);
}
oldClusterCenter = ClusterCenter;
//compute new centroid
for(var i = 0; i<cluster_n; i++){
newCentroid = pinit(pointDimension);
for(var j = 0; j<ClusterResult[i].length; j++){
newCentroid = padd(ClusterResult[i][j], newCentroid);
}
ClusterCenter[i] = pdivide(newCentroid, ClusterResult[i].length);
}
changed=false;
for(var i = 0; i<cluster_n; i++){
if(!pequal(ClusterCenter[i],oldClusterCenter[i]))
changed = true;
}
}//while (changed == true);
return ClusterResult;
}
function computeDistanceBetween(a,b){
var result = 0;
for(var i = 0; i<a.length;i++) result += a[i] * b[i];
return result;
}
function pinit(n){
var result = new Array(n);
for(var i=0;i<n;i++) result[i] = 0;
return result;
}
function padd(a,b){
var result = new Array(a.length);
for(var i = 0; i<a.length;i++) result[i] = a[i] + b[i];
return result;
}
function pdivide(a,d){
var result = new Array(a.length);
for(var i = 0; i<a.length;i++) result[i] = a[i] / d;
return result;
}
function pequal(a,b){
for(var i = 0; i<a.length;i++)
if(a[i] != b[i]) return false;
return true;
}
function randomInt(max){
return randomIntBetween(0,max);
}
function randomIntBetween(min,max){
return Math.floor(Math.random() * (max - min + 1)) + min;
}
如果我停止for-loop(k <0),则控制台会给出正确的答案。 但是,如果我启动for-loop(k <1),则数组ClusterCenter将始终具有一些NaN项。 NaN的剂量如何?
编辑:进一步的解释:如果已经执行了第14行中的for循环,则上面的ClusterCenter将给出一些NaN项。为什么?
输入示例
var testArray = new Array();
for(var i=0; i<100; i++) testArray.push([randomInt(-150,150),randomInt(-150,150)]);
kmeans(testArray,4);
上面的ClusterCenter将给出一些NaN项。为什么?
因为您要零零潜水,所以这不是一个数字。 对于ClusterResult
中的每个空群集,都确实会发生这种情况-它会创建ClusterCenter[i] = pdivide(pinit(pointDimension), 0);
。
如何处理空集群? 我想到的可能策略是使0/0 = 0
,选择一个新的随机聚类中心或将聚类全部放在一起( cluster_n--
)。
但是,为什么首先要得到这么多的空簇呢? 因为您的computeDistanceBetween
函数存在严重缺陷。 每个(非0 | 0)点都远离自身 。 选择一个更合理的距离函数,如欧氏距离。 它应始终返回一个正数,从而使Math.abs
处于循环状态。
其他一些要点:
newCentroid
错过了var
语句并泄漏到全局范围内 您的changed
有缺陷。 设置oldClusterCenter = ClusterCenter
,两个变量都将保存相同的数组 ,然后对其进行突变。 不仅pequal(ClusterCenter[i],oldClusterCenter[i])
始终为true,而且因为oldClusterCenter === ClusterCenter
,甚至ClusterCenter[i]===oldClusterCenter[i]
。
要解决此问题,可以使oldClusterCenter = ClusterCenter.slice()
或引入ClusterCenter = new Array(cluster_n);
分配后。
您用于计算最近群集的代码可以简化为
var newClusterNumber = 0, oldDistance = computeDistanceBetween(arrayToProcess[i], ClusterCenter[0])); for (var j=1; j<cluster_n; j++) { var distance = computeDistanceBetween(arrayToProcess[i], ClusterCenter[j]); if (distance <= oldDistance) { newClusterNumber = j; oldDistance = distance; } }
要么
var onewClusterNumber, ldDistance=Infinity; for (var j=0; j<cluster_n; j++) { var distance = computeDistanceBetween(arrayToProcess[i], ClusterCenter[j]); if (distance <= oldDistance) { newClusterNumber = j; oldDistance = distance; } }
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.