数据挖掘学习札记之KNN算法(三)
1. 如何确定近邻数k的值?
答:可通过实验确定。从k=1开始,使用检验集估计分类器的错误率。每次k增加1,选取产生最小错误率的值。
2. 在特征空间的维数和训练数据大时,如何对训练数据进行快速k近邻搜索?
答:可使用特殊的结构存储训练数据,以减少距离计算次数,如kd树方法 。
继续阅读:
1. 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法,如题所示,很全。
2. k-d tree算法的研究,专论kd树,有例子和代码。