感知機是可進行二分類的線性分類模型,其輸入為實例的特征向量,輸出為實例的類別(+1,-1)。感知機學(xué)習(xí)旨在求出將訓(xùn)練樣本進行線性分類的分離超平面,也就是說求模型的參數(shù)w,b,并能對新的輸入實例預(yù)測其對應(yīng)的輸出類別。
注:超平面是指在空間Rd上的一個子空間Rd-1,在二維空間中的超平面就是一條直線,三維空間的超平面是平面。超平面是平面中直線、空間中平面的推廣。
1)感知機模型
2)感知機學(xué)習(xí)策略:損失函數(shù)
3)感知機學(xué)習(xí)算法:隨機梯度下降法
1.1感知機定義[1]
1.2感知機的幾何解釋
感知機可看作是一個線性方程:
2.2感知機學(xué)習(xí)策略
感知機的學(xué)習(xí)目標是求得一個能夠?qū)⒂?xùn)練集正確分類的超平面,也就是要確定感知機模型的參數(shù)w,b。故需要確定一個學(xué)習(xí)策略,即定義一個損失函數(shù)并將損失函數(shù)極小化。
損失函數(shù)的一個度量方式是誤分類點的總數(shù),但是這樣的損失函數(shù)不是參數(shù)w,b的連續(xù)可導(dǎo)函數(shù),不易于優(yōu)化。所以感知機采用的是另一種方法,即誤分類點到超平面S的總距離來作為損失函數(shù)。
高中的時候,我們就學(xué)習(xí)了點到直線的距離公式,大家可否都還記得?
2.2.1損失函數(shù)的定義[1]
M為誤分類點的集合。這個損失函數(shù)是感知機學(xué)習(xí)的經(jīng)驗風(fēng)險函數(shù)。
損失函數(shù)一定是非負的,如果沒有誤分類的點,則損失函數(shù)為0。誤分類的點越少,且誤分類點離超平面越近,則損失函數(shù)就越小。對于一個特定的樣本點損失函數(shù):在誤分類時其可表示為參數(shù)w,b的線性函數(shù),在正確分類時為0,因此,在訓(xùn)練數(shù)據(jù)集上,損失函數(shù)都是連續(xù)可導(dǎo)函數(shù)。故可以通過隨機梯度下降法選取使損失函數(shù)最小的感知機模型。怎么進行隨機梯度下降呢?
2.3感知機學(xué)習(xí)算法
2.3.1感知機學(xué)習(xí)算法的原始形式[1]
感知機學(xué)習(xí)算法是誤分類驅(qū)動的,任意選取一個超平面,其參數(shù)假設(shè)為w0,b0,可采用隨機梯度下降法不斷地極小化損失函數(shù),極小化過程中不是一次將M中所有誤分類點都梯度下降,而是一次隨機選取一個誤分類點使其梯度下降。
答案是否定的,大家有興趣的話不妨嘗試一下。
由上述可見,感知機學(xué)習(xí)算法由于采用不同的初值或選取不同的誤分類點,解是不同的。
2.3.2感知機學(xué)習(xí)算法的對偶算法[1]
前面介紹的是感知機學(xué)習(xí)算法的原始形式,現(xiàn)在介紹一下感知機學(xué)習(xí)算法的對偶形式。
對偶形式的感知機算法[1]
注:在相同的參數(shù)初值和誤分類點輸入相同的情況下,對偶形式和原始形式的結(jié)果一致,迭代步驟也是相互對應(yīng)的。
2.3.3算法的收斂性[1]
感知機學(xué)習(xí)算法原理簡單,適應(yīng)于數(shù)據(jù)線性可分的條件下,且存在無窮多個解,其解由于不同的初值或不同的迭代順序而可能有所不同。
對于線性可分數(shù)據(jù)集感知機學(xué)習(xí)算法原始形式和對偶形式得迭代是收斂的,當線性不可分時,感知機學(xué)習(xí)算法不收斂,迭代會發(fā)生動蕩。故感知機學(xué)習(xí)算法只適應(yīng)于線性可分的訓(xùn)練數(shù)據(jù)集。
1.神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)
2.垃圾分類上的應(yīng)用
3.模擬混合電路故障診斷中的應(yīng)用
4.經(jīng)典數(shù)據(jù)集鳶尾花上的應(yīng)用
[1] 李航,《統(tǒng)計學(xué)習(xí)方法》
[2] https://blog.csdn.net/DawnRanger/article/details/49500025
[3] https://www.cnblogs.com/mengxiangtiankongfenwailan/p/8656753.html
(部分文字、圖片來自網(wǎng)絡(luò),如涉及侵權(quán),請及時與我們聯(lián)系,我們會在第一時間刪除或處理侵權(quán)內(nèi)容。電話:4006770986 負責(zé)人:張明)