K最近邻算法

LockGit · LockGit · commit f634ff206b77 · 2017-12-23T19:54:58.000+08:00
diff --git a/README.md b/README.md
@@ -499,11 +499,27 @@ while (p2.next is not None and p2.next.next is not None):
 print '快慢指针方式,单链表中间节点为:%s,索引为:%s，只遍历一次链表' % (p1.data,step)
 ```
 
+### K最近邻算法
+```
+这个算法比svm简单很多
+只需使用初中所学的两点距离公式（欧拉距离公式），计算绿点到各组的距离，看绿点和哪组更接近。
+K代表取当前要分类的点最近的k个点，这k个点如果其中属于红点个数占多数，我们就认为绿点应该划分为红组，反之，则划分为黑组。
+k值与分类数成正相关，现在是2个分组，那么k值取3，假设是3个分组，那么k值就要取5
+参考说明：https://zh.wikipedia.org/wiki/最近鄰居法
+依赖：
+pip install numpy
+pip install matplotlib
+
+下图中标注较大的红点在计算之后被分配到红组
+执行：python knn.py
+```
+![](https://github.com/LockGit/Py/blob/master/img/knn.png)
+
 
 ### 支持向量机 svm.py
 ```
 迟早会忘记的svm
-分类算法，寻找一个最优超平面
+属分类算法，目标是寻找一个最优超平面，比knn算法复杂
 demo为线性可分离数据
 
 参考1：https://zh.wikipedia.org/zh-hans/支持向量机
diff --git a/img/knn.png b/img/knn.png
diff --git a/knn.py b/knn.py
@@ -0,0 +1,53 @@
+# -*- coding: utf-8 -*-
+# @Author: lock
+# @Date:   2017-12-23 19:24:54
+# @Last Modified by:   lock
+# @Last Modified time: 2017-12-23 19:41:34
+import math
+import numpy as np
+from matplotlib import pyplot
+from collections import Counter
+import warnings
+# K最近邻算法
+# 两个分组时k值取3，3个分组时k值取5...
+ 
+# k-Nearest Neighbor算法
+def k_nearest_neighbors(data, predict, k=3):
+ 
+    if len(data) >= k:
+        warnings.warn("k is too small")
+ 
+    # 计算predict点到各点的距离
+    distances = []
+    for group in data:
+        for features in data[group]:
+            #euclidean_distance = np.sqrt(np.sum((np.array(features)-np.array(predict))**2))   # 计算欧拉距离，这个方法没有下面一行代码快
+            euclidean_distance = np.linalg.norm(np.array(features)-np.array(predict))
+            distances.append([euclidean_distance, group])
+ 
+    sorted_distances =[i[1]  for i in sorted(distances)]
+    top_nearest = sorted_distances[:k]
+ 
+    #print(top_nearest)  ['red','black','red'] 出现次数最多，返回一个TopN列表。如果n没有被指定，则返回所有元素。当多个元素计数值相同时，排列是无确定顺序的。
+    group_res = Counter(top_nearest).most_common(1)[0][0]
+    confidence = Counter(top_nearest).most_common(1)[0][1]*1.0/k
+    # confidences是对本次分类的确定程度，例如(red,red,red)，(red,red,black)都分为red组，但是前者显的更自信
+    return group_res, confidence
+ 
+if __name__=='__main__':
+ 
+    dataset = {'black':[ [1,2], [2,3], [3,1] ], 'red':[ [6,5], [7,7], [8,6] ]}
+    new_features = [3.5,5.2]  # 判断这个样本属于哪个组
+ 
+    for i in dataset:
+        for ii in dataset[i]:
+            pyplot.scatter(ii[0], ii[1], s=50, color=i)
+ 
+    #两个分组时k值取3，3个分组时k值取5
+    which_group,confidence = k_nearest_neighbors(dataset, new_features, k=3)
+    print(which_group, confidence)
+ 
+    #s表示点的大小
+    pyplot.scatter(new_features[0], new_features[1], s=300, color=which_group)
+ 
+    pyplot.show()