樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。在機器學習中,樸素貝葉斯和其他大多數(shù)的分類算法都不同,比如決策樹、KNN、支持向量機等,他們都是判別方法,直接學習出特征輸出Y和特征輸出X之間的關系,Y=f(X)或者P(Y|X)。但樸素貝葉斯是生成方法,是直接找出特征輸出Y和特征X的聯(lián)合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。
1)樸素貝葉斯法的學習與分類
2)樸素貝葉斯法的參數(shù)估計
1.1后驗概率最大化的含義[1]
樸素貝葉斯法將實例分到后驗概率最大的類中,這等價于期望風險最小化,假設選擇0-1損失函數(shù):
這樣一來,根據(jù)期望風險最小化準則就得到了后驗概率最大準則:
1.2極大似然估計[1]
1.3學習與分類算法
使用極大似然估計可能會出現(xiàn)所要估計的概率值為0的情況,這時會影響到后驗概率的計算結果,使分類產生偏差,解決這一問題的方法是采用貝葉斯估計,它與樸素貝葉斯估計有什么不同呢
3 樸素貝葉斯算法總結
樸素貝葉斯是典型的生成學習方法,是直接找出特征輸出Y和特征X的聯(lián)合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出,對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就判定該待分項屬于哪個類。
3.1樸素貝葉斯的主要優(yōu)點:
1)樸素貝葉斯模型有穩(wěn)定的分類效率
2)樸素貝葉斯很直觀,計算量也不大
3)對小樣本數(shù)據(jù)表現(xiàn)很好,能處理多分類任務。
4)對缺失數(shù)據(jù)不敏感,算法也比較簡單,常用于文本分類。
3.2樸素貝葉斯的主要缺點:
1)理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型給定輸出類別的情況下,假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數(shù)比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好
2)需要知道先驗概率,且先驗概率很多時候取決于假設,假設的模型可以有很多種,因此在某些時候會由于假設的先驗模型的原因導致預測效果不佳。
3)由于我們是通過先驗和數(shù)據(jù)來決定后驗的概率從而決定分類,所以分類決策存在一定的錯誤率。
4)對輸入數(shù)據(jù)的表達形式很敏感。
1)垃圾郵件分類
2)病癥判斷,即病人分類
3)檢測某社區(qū)平臺不真實賬號
4)新聞分類
參考文獻
[1]李航,《統(tǒng)計學習方法》
[2]https://www.cnblogs.com/lliuye/p/9178090.html
[3]http://bbs.elecfans.com/jishu_1659159_1_1.html
[4] https://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
(部分文字、圖片來自網絡,如涉及侵權,請及時與我們聯(lián)系,我們會在第一時間刪除或處理侵權內容。電話:4006770986 負責人:張明)