一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python語言實現機器學習的K-近鄰算法

Python語言實現機器學習的K-近鄰算法

2020-07-15 10:04Python教程網 Python

今天學習的算法是KNN近鄰算法。KNN算法是一個監督學習分類器類別的算法。下面我們來詳細的探討下

寫在前面

額、、、最近開始學習機器學習嘛,網上找到一本關于機器學習的書籍,名字叫做《機器學習實戰》。很巧的是,這本書里的算法是用Python語言實現的,剛好之前我學過一些Python基礎知識,所以這本書對于我來說,無疑是雪中送炭啊。接下來,我還是給大家講講實際的東西吧。

什么是K-近鄰算法?

簡單的說,K-近鄰算法就是采用測量不同特征值之間的距離方法來進行分類。它的工作原理是:存在一個樣本數據集合,也稱作訓練樣本集,并且樣本集中每個數據都存在標簽,即我們知道樣本集中每一數據與所屬分類的對應關系,輸入沒有標簽的新數據之后,將新數據的每個特征與樣本集中數據對應的特征進行比較,然后算法提取出樣本集中特征最相似數據的分類標簽。一般來說,我們只選擇樣本數據集中前k個最相似的數據,這就是K-近鄰算法名稱的由來。

提問:親,你造K-近鄰算法是屬于監督學習還是無監督學習呢?

使用Python導入數據

從K-近鄰算法的工作原理中我們可以看出,要想實施這個算法來進行數據分類,我們手頭上得需要樣本數據,沒有樣本數據怎么建立分類函數呢。所以,我們第一步就是導入樣本數據集合。

建立名為kNN.py的模塊,寫入代碼:

?
1
2
3
4
5
6
7
from numpy import *
import operator
 
def createDataSet():
  group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
  labels = ['A','A','B','B']
  return group, labels

代碼中,我們需要導入Python的兩個模塊:科學計算包NumPy和運算符模塊。NumPy函數庫是Python開發環境的一個獨立模塊,大多數Python版本里沒有默認安裝NumPy函數庫,因此這里我們需要單獨安裝這個模塊。

下載地址:http://sourceforge.net/projects/numpy/files/

Python語言實現機器學習的K-近鄰算法

有很多的版本,這里我選擇的是numpy-1.7.0-win32-superpack-python2.7.exe。

實現K-近鄰算法

K-近鄰算法的具體思想如下:

(1)計算已知類別數據集中的點與當前點之間的距離

(2)按照距離遞增次序排序

(3)選取與當前點距離最小的k個點

(4)確定前k個點所在類別的出現頻率

(5)返回前k個點中出現頻率最高的類別作為當前點的預測分類

Python語言實現K-近鄰算法的代碼如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# coding : utf-8
from numpy import *
import operator
import kNN
group, labels = kNN.createDataSet()
def classify(inX, dataSet, labels, k):
  dataSetSize = dataSet.shape[0]
  diffMat = tile(inX, (dataSetSize,1)) - dataSet
  sqDiffMat = diffMat**2
  sqDistances = sqDiffMat.sum(axis=1)
  distances = sqDistances**0.5
  sortedDistances = distances.argsort()
  classCount = {}
  for i in range(k):
    numOflabel = labels[sortedDistances[i]]
    classCount[numOflabel] = classCount.get(numOflabel,0) + 1
  sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1),reverse=True)
  return sortedClassCount[0][0]
my = classify([0,0], group, labels, 3)
print my

運算結果如下:

Python語言實現機器學習的K-近鄰算法

 輸出結果是B:說明我們新的數據([0,0])是屬于B類。

代碼詳解

相信有很多朋友們對上面這個代碼有很多不理解的地方,接下來,我重點講解幾個此函數的關鍵點,以方便讀者們和我自己回顧一下這個算法代碼。

classify函數的參數:

inX:用于分類的輸入向量
dataSet:訓練樣本集合
labels:標簽向量
k:K-近鄰算法中的k
shape:是array的屬性,描述一個多維數組的維度

tile(inX, (dataSetSize,1)):把inX二維數組化,dataSetSize表示生成數組后的行數,1表示列的倍數。整個這一行代碼表示前一個二維數組矩陣的每一個元素減去后一個數組對應的元素值,這樣就實現了矩陣之間的減法,簡單方便得不讓你佩服不行!

axis=1:參數等于1的時候,表示矩陣中行之間的數的求和,等于0的時候表示列之間數的求和。

argsort():對一個數組進行非降序排序

classCount.get(numOflabel,0) + 1:這一行代碼不得不說的確很精美啊。get():該方法是訪問字典項的方法,即訪問下標鍵為numOflabel的項,如果沒有這一項,那么初始值為0。然后把這一項的值加1。所以Python中實現這樣的操作就只需要一行代碼,實在是很簡潔高效。

后話

K-近鄰算法(KNN)原理以及代碼實現差不多就這樣了,接下來的任務就是更加熟悉它,爭取達到裸敲的地步。

以上所述上就是本文的全部內容了,希望大家能夠喜歡。

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 婷婷久久热99在线精品 | 国产亚洲欧美日韩综合综合二区 | 欧美高清3dfreexxxx性 | 国产区香蕉精品系列在线观看不卡 | 教师系列 大桥未久在线 | 日本视频二区 | 青久久 | 午夜精品网站 | 91视频a| 范冰冰特黄xx大片 | 男人天堂2023 | 欧美成人精品福利在线视频 | 久久精品视频在线看 | 好吊色网站 | 吃大胸寡妇的奶 | 日本大片在线 | 日本不卡在线一区二区三区视频 | 人人艹在线视频 | 苍井空av | 成人欧美一区在线视频在线观看 | 精品无码人妻一区二区免费AV | 亚洲第一成年免费网站 | 完整秽淫刺激长篇小说 | 高h折磨调教古代 | 四虎永久免费地址ww417 | 日本乱人伦中文在线播放 | xvideoscom极品肌肉警察 | 日本连裤袜xxxxx在线视频 | 美妇在男人胯下哀求 | 欧美日韩亚洲高清不卡一区二区三区 | 大胆人gogo888体艺术在线 | 99精品热线在线观看免费视频 | 91精品国产高清久久久久久io | 免看一级a一片成人123 | 美女视频ww8888网网 | 男人的天堂久久精品激情 | 亚洲国产精品第一区二区三区 | avtt天堂网 手机资源 | 我不卡影院手机在线观看 | 放荡警察巨r麻麻出轨小说 范冰冰特黄xx大片 饭冈加奈子在线播放观看 法国老妇性xx在线播放 | 欧美伊香蕉久久综合类网站 |