K最近邻K-nearest neighbor,KNN

原理简述

训练模型后,输入新的数据,根据附近几个点属于哪一类,来判断输入数据属于哪一类

核心

k值——纳入多少个最近点,取k值基于交叉验证法,从最小的k值取起逐渐增加,直到误差最小

判断输入点和已有点的距离的算法

  • 欧几里得距离
  • 曼哈顿距离
  • 马氏距离(首选),标准化后的欧几里得距离

KNN适用场景

数据量小
对异常值不敏感