博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
轻松玩转 Scikit-Learn 系列 —— KNN 算法
阅读量:5786 次
发布时间:2019-06-18

本文共 1305 字,大约阅读时间需要 4 分钟。

scikit-learn 是最受欢迎的机器学习库之一,它提供了各种主流的机器学习算法的API接口供使用者调用,让使用者可以方便快捷的搭建一些机器学习模型,并且通过调参可以达到很高的准确率。

这次我们主要介绍scikit-learn中k近邻算法(以下简称为KNN)的使用。

KNN是一种非参数机器学习算法(机器学习中通过模型训练而学到的是模型参数,而要人工调整的是超参数,请注意避免混淆)。使用KNN首先要有一个已知的数据集D,数据集内对于任意一个未知标签的样本数据x,可以通过计算x与D中所有样本点的距离,取出与x距离最近的前k个已知数据,用该k个已知数据的标签对x进行投票,哪一类票数最多,x就是哪一类,这是kNN的大概思想,以下举个例子方便理解。

59145c471ca2ab493c62479ff97e0b852164c859

正方形该分到哪个类?

在上图中有2个已知类别——红色五角星和蓝色三角形和一个未知样本——绿色方格。现在我们要用KNN算法对绿色方格进行分类,以判定其属于这两类中的哪一类,首先令k=5,通过计算距离我们可以知道距离绿色方格最近的5个样本中(假设绿色方格位于圆心),有2个红色五角星,3个蓝色三角形。通过投票可知:蓝色三角形得3票,红色五角星得2票,因此绿色方格应该属于蓝色三角形。kNN就是这样工作的。

上图同时也引申出KNN算法的一个重要的超参数——k。举例来说,如果当k=10时,由图可以看出:红色五角星投了6票,蓝色三角形投了4票,因此未知的样本应该属于红色五角星一类。因此,我们可以看出超参数的选择会影响最终kNN模型的预测结果。下面用代码具体展示如何调用scikit-learn使用kNN,并调整超参数。

336699a1c01e5b168fbe568220c813677f2831f3

以上是利用scikit-learn中默认的k近邻模型来预测未知鸢尾花样本的种类(假装未知),我们在实例化模型的过程中并未传入任何的超参数,则kNN模型会使用模型默认的超参数。

例如:

 ●  metric='minkowski'
—— 计算样本点之间距离的时候会采用明可夫斯基距离,与p=2等价
 ●  n_jobs=1
—— kNN算法支持cpu多核并行运算;n_jobs=1,默认使用一个核,当n_jobs=-1时,使用所有的核
 ●  n_neighbors=5
—— 表示k=5,即抽取未知样本附近最近的5个点进行投票
 ●  weights='uniform'
—— 表示再利用最近的k个点投票时,他们的权重是等价的,当weights='distance'时,表示一个已知样本点距离未知点的距离越小,其投票时所占权重越大

还有一些其他的很重要的超参数,在这里先暂不说明,以下用代码具体展示。

f1de85c33246ca2e24d013bbfa3f632decb08f90

以下用循环来搜索下关于n_neighbors、和p这两个超参数的最优值。

3e131ccd85ce4a8d5d64f0fd787a215d63280f35

因为我们为了便于可视化,仅使用了鸢尾花数据集中的2个特征,所以导致最终预测的准确率不太高,如果使用该数据集的全部特征来训练模型并预测未知样本,传入最佳超参数的kNN模型,亲测准确度可达100%,当然这与鸢尾花数据集的高质量也有关系。运行以上代码并打印结果可得如上所示。

原文发布时间为:2018-11-21

本文作者:蜉蝣扶幽

本文来自云栖社区合作伙伴“”,了解相关信息可以关注“”。

转载地址:http://zityx.baihongyu.com/

你可能感兴趣的文章
DEV-C++ 调试方法简明图文教程(转)
查看>>
VS2017+EF+Mysql生成实体数据模型(解决闪退的坑)
查看>>
C++多态、继承的简单分析
查看>>
库克称未来苹果用户可自己决定是否降频 网友:你是在搞笑吗?
查看>>
6倍性能差100TB容量,阿里云POLARDB咋实现?
查看>>
linux 安装 MySQLdb for python
查看>>
Sublime Text 2 技巧
查看>>
使用fscanf()函数从磁盘文件读取格式化数据
查看>>
网站一些error_log报错
查看>>
参加婚礼
查看>>
h5 audio相关手册
查看>>
JDK文章列表-转载列表
查看>>
umask--设置用户文件和目录的文件创建缺省屏蔽值
查看>>
磁盘管理-quota
查看>>
刚毕业从事java开发需要掌握的技术
查看>>
CSS Custom Properties 自定义属性
查看>>
vim
查看>>
linux sort命令详解
查看>>
windows7中如何查看一个端口正在被占用
查看>>
python常用模块
查看>>