前面我們介紹了多種機器學(xué)習(xí)算法,但它們都是用來分類的,今天我們講一下另一種類型,回歸?;貧w是基于已有數(shù)據(jù)建立回歸模型,對新的數(shù)據(jù)進(jìn)行預(yù)測。今天要講的是線性回歸模型。
1)一元線性回歸模型
2)多元線性回歸模型
3)損失函數(shù)
4)正則化
一元線性方程反映一個因變量與一個自變量之間的線性關(guān)系。即:
那一元線性回歸模型呢?則為:
為了便于理解,下面舉例說明:
例:有一個公司,十個月的廣告費用和銷售額,如下表所示:
我們都知道廣告費與銷售額存在相關(guān)性,但具體是怎么的呢?
先將廣告費和銷售額畫在二維坐標(biāo)內(nèi),得到一個散點圖,發(fā)現(xiàn)兩者成直線上升的趨勢,可利用一元線性回歸來擬合這一條直線:
那具體怎么擬合的呢?如何確定擬合直線的效果好呢?
1.1線性回歸的損失函數(shù):平方誤差
對于一元線性回歸來說,可以看成Y的值隨著X的值變化,每個實際的X都會有一個實際的Y值,,我們擬合一條直線,則每個實際的X都會有個直線預(yù)測Y值,我們要使每個真實的Y值與對應(yīng)預(yù)測的Y值之差的平方和最小,即損失函數(shù)為:
上一節(jié)講的是一元線性回歸,只要一個自變量x對因變量y作回歸,那要是有兩個或兩個以上的自變量呢?這就是我們接下來要講的多元線性回歸,模型形式為:
矩陣表示:
K-1個解釋變量的多元線性回歸模型的n次觀測數(shù)據(jù),可表示為
我們知道,對于多元線性回歸中的最小化問題一般使用多元微積分求解,其原理與一元線性回歸方程的最小二乘法相同,得到一個參數(shù)已求出的多元線性方程。
為防止模型的過擬合,我們在建立線性模型的時候經(jīng)常需要加入正則化項,一般有L1正則化和L2正則化。
線性回歸的L1正則化,通常稱為Lasso回歸:
Lasso回歸可以使得一些特征的系數(shù)變小,甚至一些絕對值較小的系數(shù)值直接變?yōu)?。增強模型的泛化能力。
線性回歸的L2正則化,通常稱為Ridge回歸:
Ridge回歸在不拋棄任何一個特征的情況下,縮小了回歸系數(shù),使得模型相對而言比較的穩(wěn)定,但和Lasso回歸比,這會使得模型的特征留的特別多,模型解釋性差。
總的來說,線性回歸模型就是用于分析變量之間的關(guān)系、以及變量是如何影響結(jié)果的一種方法。建立模型之后,可根據(jù)新變量預(yù)測其結(jié)果。
4.1 線性回歸的優(yōu)點
1. 建模速度快,不需要很復(fù)雜的計算,在數(shù)據(jù)量大的情況下依然運行速度很快。
2. 回歸分析可以準(zhǔn)確地計量各個因素之間的相關(guān)程度與回歸擬合程度的高低,提高預(yù)測方程式的效果,可以根據(jù)系數(shù)給出每個變量的理解和解釋。
4.2 線性回歸缺點
1. 對異常值很敏感
2. 假定條件較多,并且選用何種因子和該因子采用何種表達(dá)式只是一種推測,這影響了因子的多樣性和不可測性,使得回歸分析受到限制。
1)廣告費與銷售額的關(guān)系
2)中國人口自然增長分析的應(yīng)用
3)家庭用電預(yù)測
4)分析豆瓣評分與票房之間的關(guān)系
參考文獻(xiàn)
[1] https://baike.so.com/doc/6956818-7179250.html
[2] https://blog.csdn.net/pql925/article/details/80084673
[3] https://www.cnblogs.com/pinard/p/6004041.html
[5] https://blog.csdn.net/Katherine_hsr/article/details/79942260
[6] https://blog.csdn.net/loveliuzz/article/details/78608897
(部分文字、圖片來自網(wǎng)絡(luò),如涉及侵權(quán),請及時與我們聯(lián)系,我們會在第一時間刪除或處理侵權(quán)內(nèi)容。電話:4006770986 負(fù)責(zé)人:張明)