国产中文字幕第一页|精品国产亚洲一区二区三区在线|亚洲欧美中文日韩欧美|三a四a视频在线观看

    1. 
      
    2. 當前位置: 首頁>> 輿情簡評 >>正文

      機器學習算法實踐-決策樹

      2020-03-03 13:56 作者:蟻坊軟件研究院 瀏覽次數(shù):6985 標簽: 機器學習 深度學習算法
      "速讀全網(wǎng)"輿情,了解傳播路徑,把握發(fā)展態(tài)勢——點擊試用鷹眼速讀網(wǎng)全網(wǎng)輿情監(jiān)測分析系統(tǒng)

      決策樹是一種基本的分類與回歸方法。

      在分類問題中,表示基于特征對實例進行分類的過程,可以認為是if-then規(guī)則的集合,也可以認為是定義在特征空間與類空間上的條件概率分布[1]。

      在回歸問題中,回歸樹總體流程類似于分類樹,分枝時窮舉每一個特征的每一個閾值,來尋找最優(yōu)切分特征j和最優(yōu)切分點s,衡量的方法是平方誤差最小化。分枝直到達到預設(shè)的終止條件(如葉子個數(shù)上限)就停止。

      0 決策樹主要學習內(nèi)容

      1. 決策樹模型:掌握決策樹模型:根結(jié)點,子結(jié)點,葉結(jié)點。

      2. 特征選擇:如何從特征空間中選擇最優(yōu)特征作為結(jié)點,常用方法信息熵,信息增益,信息增益比,基尼指數(shù)。

      3. 不同特征選擇對應不同算法:

      ID3(基于信息增益作為特征選擇的度量)

      C4.5(基于信息增益比作為特征選擇的度量)

      CART(基于基尼指數(shù)作為特征選擇的度量)

      4. 決策樹的修剪:縮小樹結(jié)構(gòu)規(guī)模、緩解訓練集上的過擬合,提高模型的泛化能力。

      1、決策樹模型

      決策樹呈樹形結(jié)構(gòu),由結(jié)點和有向邊組成。結(jié)點有兩種類型:內(nèi)部結(jié)點和葉結(jié)點,內(nèi)部節(jié)點表示一個特征或?qū)傩?,葉結(jié)點表示一個類別。

      決策樹分類,從根結(jié)點開始,對實例進行特征選擇,根據(jù)最優(yōu)特征選擇將實例分配到其子結(jié)點(如何求最優(yōu)特征,這將是決策樹的重中之重),這時,每一個子結(jié)點對應著該特征的一個取值,如此遞歸地對實例進行測試并分配,直到達到葉結(jié)點,將實例全部分到葉結(jié)點的類中。

       

      決策樹在邏輯上以樹的形式存在,包含根結(jié)點、內(nèi)部結(jié)點(子結(jié)點)葉結(jié)點。

      1)根結(jié)點:包含數(shù)據(jù)集中的所有數(shù)據(jù)的集合 ,根結(jié)點有且僅有一個。

      2)內(nèi)部結(jié)點:每個內(nèi)部結(jié)點可看作一個判斷條件,并且包含數(shù)據(jù)集中滿足從根節(jié)點到該結(jié)點所有條件的數(shù)據(jù)的集合。根據(jù)內(nèi)部結(jié)點的判斷結(jié)果,將內(nèi)部結(jié)點所包含的數(shù)據(jù)集分到兩個或多個子結(jié)點中。

      3)葉結(jié)點:葉結(jié)點為最終的類別,包含在該葉結(jié)點的數(shù)據(jù)屬于該類別。

      例:

       

      提出問題

      為何要用特征“香不香”為根節(jié)點呢?為何不選“辣不辣”或者“甜不甜”為根節(jié)點呢?

      答:這是因為“香不香”這一特征相比其他特征更具有將訓練數(shù)據(jù)分類的能力。

      那是如何判斷這一特征更具有將訓練數(shù)據(jù)分類的能力呢?

      答:這需要進行特征選擇,常用方法有信息增益、信息增益比、基尼指數(shù)。

      2、特征選擇及用其分類的算法

      2.1 前期準備工作

      首先需要介紹一下信息熵,條件熵。

      2.1.1信息熵

      在信息論中,一個特征所帶的信息量又稱信息熵,熵度量了事物的不確定性,越不確定的事物,它的熵就越大。

       

      當概率為0.5時,熵的取值最大,也就是說,隨機變量不確定性最大。

      2.1.2 條件熵

      如有兩個隨機變量呢?

      設(shè)有隨機變量(X,Y),其聯(lián)合概率分布為:

       2.2 信息增益[1]

      信息增益,主要看一個特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,則該特征越重要。沒它和有它的信息量(信息熵)差值就是這個特征給系統(tǒng)帶來的信息量,也稱信息增益。簡單來說就是在現(xiàn)有訓練集包含的信息熵和已知某特征下的信息熵的差值即該特征的信息增益。

      由于熵和條件熵中的概率通常無法直接得到,所以在實際中用頻率代替概率。使用頻率的熵和條件熵也分別稱經(jīng)驗熵和條件經(jīng)驗熵。

       

       

       

       

      2.2.1 基于信息增益的ID3算法[1]

      ID3算法的核心:是在決策樹各個節(jié)點上應用信息增益準則選擇特征,遞歸地構(gòu)建決策樹。

        

        

       

      選擇信息增益最大的特征A2(有工作)作為結(jié)點的特征,由于A2有兩個可能取值,從這一結(jié)點可引發(fā)兩個子結(jié)點,一個“是”有工作,一個“否”有工作。據(jù)實例,在D2訓練集下(9個人),有工作的3人屬于同類(批準貸款申請),所以為一個葉結(jié)點。類標記為“是”,另一個無工作的6人也屬于同類(未批準貸款申請),也可為一個葉結(jié)點,類標記為“否”。

      該決策樹模型圖為:

      該實例的ID3決策樹構(gòu)建完成。 

      2.3.1 基于信息增益比的C4.5算法

      C4.5算法與ID3算法相似,C4.5算法對ID3算法做了改進,在進行特征選擇時,采用信息增益比來代替信息增益進行特征選擇。

       

       

        

       

      2.4.1 基于基尼指數(shù)的CART算法[1]

      CART同樣由特征選擇、樹的生成、修剪組成。既可以用于分類也可以用于回歸。該算法下是遞歸地構(gòu)建二叉樹決策樹的過程。

      對于分類樹,用基尼指數(shù)最小化準則進行特征選擇,生成二叉樹。

      對于回歸樹,使用平方誤差最小化方法。

        

       

        

      如下表2,需要利用實例數(shù)據(jù)對年齡進行預測,若將j屬性選為職業(yè),則有三種劃分情況,

      1){老師,上班族},{學生}

      2){學生,上班族},{老師}

      3){老師,學生},{上班族}

       

       

      最小平方誤差計算得:

      m=42+226.8=268.8

       

       

      2.5 決策樹剪枝[1]

      決策樹生成算法遞歸地產(chǎn)生決策樹,直到不能繼續(xù)下去為止,這樣的樹往往對訓練數(shù)據(jù)集有很好的擬合,但對未知的測試數(shù)據(jù)的分類就不太理想,這就是出現(xiàn)了過擬合現(xiàn)象,出現(xiàn)這一問題,解決方法就是要考慮決策樹的復雜度,對已有的決策樹進行簡化,簡稱剪枝。

      剪枝往往通過極小化決策樹整體的損失函數(shù)或代價函數(shù)來減小模型復雜度,提高全局學習效果。

       

       

      2.5 決策樹剪枝[1]

      決策樹生成算法遞歸地產(chǎn)生決策樹,直到不能繼續(xù)下去為止,這樣的樹往往對訓練數(shù)據(jù)集有很好的擬合,但對未知的測試數(shù)據(jù)的分類就不太理想,這就是出現(xiàn)了過擬合現(xiàn)象,出現(xiàn)這一問題,解決方法就是要考慮決策樹的復雜度,對已有的決策樹進行簡化,簡稱剪枝。

      剪枝往往通過極小化決策樹整體的損失函數(shù)或代價函數(shù)來減小模型復雜度,提高全局學習效果。

      3 決策樹算法總結(jié)

      3.1 決策樹算法(貪心算法)

      ? 有監(jiān)督的學習

      ? 非參數(shù)學習算法

      ? 自頂向下遞歸方式構(gòu)造決策樹

      ? 在每一步選擇中都采取在當前狀態(tài)下最好的選擇

      3.2 決策樹的優(yōu)點:

      (1)速度快:計算量相對較小,且容易轉(zhuǎn)化成分類規(guī)則。只要沿著樹根向下一直走到葉,沿途的分裂條件就能夠唯一確定一條分類的路徑。

      (2)準確性高:挖掘出的分類規(guī)則準確性高,便于理解,決策樹可以清晰的顯示哪些字段比較重要,即可以生成可以理解的規(guī)則。

      (3)適合高維數(shù)據(jù)

      (4)可以處理連續(xù)變量和種類字段

      (5)不需要任何領(lǐng)域知識和參數(shù)假設(shè)

      3.3 決策樹的缺點

      (1)對于各類樣本數(shù)量不一致的數(shù)據(jù),信息增益偏向于那些具有更多數(shù)值的特征。

      (2)易于過擬合

      (3)忽略屬性之間的相關(guān)性

      4 決策樹的運用

      第一:決策樹法作為一種決策技術(shù),已被廣泛地應用于企業(yè)的投資決策之中,它是隨機決策模型中最常見、最普及的一種規(guī)策模式和方法,有效地控制了決策帶來的風險。所謂決策樹法,就是運用樹狀圖表示各決策的期望值,通過計算,最終優(yōu)選出效益最大、成本最小的決策方法。

      第二:信用評分

      第三:工廠生產(chǎn)能力計劃

      第四:隨機森林的基礎(chǔ)

      參考文獻

      [1]李航,《統(tǒng)計學習方法》.

      [2] https://www.cnblogs.com/yjd_hycf_space/p/6940068.html

      [3] https://blog.csdn.net/gzj_1101/article/details/78355234

      [4] 常用數(shù)據(jù)挖掘算法總結(jié)及python實現(xiàn).

       

      (部分文字、圖片來自網(wǎng)絡,如涉及侵權(quán),請及時與我們聯(lián)系,我們會在第一時間刪除或處理侵權(quán)內(nèi)容。電話:4006770986    負責人:張明)

      熱門文章 換一換
      文章推薦換一換
      輿情監(jiān)測關(guān)注問題換一換
      輿情監(jiān)測公司排名 輿情分析 輿情管理 輿情監(jiān)測系統(tǒng) 全網(wǎng)輿情監(jiān)測系統(tǒng) 輿情監(jiān)測 輿論 輿情監(jiān)測平臺 互聯(lián)網(wǎng)輿情監(jiān)測 輿情監(jiān)控系統(tǒng) 輿情監(jiān)測服務平臺 熱點輿情 網(wǎng)絡輿情分析報告 輿論聚焦 中山大學張鵬 超強臺風山竹 個人所得稅起征點 微博傳播分析 網(wǎng)紅直播 手機輿情監(jiān)測 做好輿情監(jiān)控 輿情監(jiān)測報價 網(wǎng)絡熱點事件 輿情搜索 輿情預警系統(tǒng) 近期輿情 輿情報告 輿情 免費輿情軟件 輿情監(jiān)測方案 輿情監(jiān)測解決方案 輿情是什么意思 網(wǎng)絡輿情監(jiān)測 輿情案例分析 專業(yè)輿情監(jiān)測 媒體輿情監(jiān)測 藥品安全事件 長春長生疫苗事件 潔潔良 樂清女孩 新浪微輿情 網(wǎng)絡輿情分析報告 2019網(wǎng)絡輿情事件 山東壽光水災 社會輿情 輿情監(jiān)測哪家好 輿情監(jiān)測方法 輿情監(jiān)測報價 新浪輿情 手機輿情監(jiān)測 近期輿情 網(wǎng)紅直播 輿情事件 免費輿情監(jiān)測軟件 社會輿情 網(wǎng)絡輿情監(jiān)測系統(tǒng) 輿情監(jiān)測報告 輿情監(jiān)測軟件 網(wǎng)絡輿情監(jiān)測公司 互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng) 輿情監(jiān)測分析 輿情監(jiān)控前幾大公司 網(wǎng)絡輿情監(jiān)控軟件 網(wǎng)絡輿情監(jiān)控系統(tǒng) 輿情監(jiān)控是什么意思 免費輿情監(jiān)控 互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng) 網(wǎng)絡輿情分析 輿情 政務輿情 什么是輿情 新華網(wǎng)輿情在線 輿情監(jiān)控系統(tǒng) 互聯(lián)網(wǎng)輿情分析 社區(qū)輿情信息 網(wǎng)絡輿情信息 網(wǎng)絡輿情分析系統(tǒng) 網(wǎng)絡輿情管理 人民輿情監(jiān)控 軍犬網(wǎng)絡輿情監(jiān)控系統(tǒng) 輿情監(jiān)控 涉警輿情 鷹擊 鷹眼輿情
      標簽云 換一換
      2025年輿情報告 文旅輿情 熱點監(jiān)測 輿情報告 輿情分析 輿情研判 輿情研究 信息挖掘 輿情信息收集 醫(yī)院輿情 醫(yī)療輿情 網(wǎng)絡輿情監(jiān)測系統(tǒng) 輿情監(jiān)測軟件 輿情服務 輿情服務商 輿情監(jiān)測 輿情監(jiān)測系統(tǒng) 輿情監(jiān)測工具 屬地輿情監(jiān)測 全網(wǎng)輿情監(jiān)測 地方輿情 社會事件輿情分析 行業(yè)輿情 互聯(lián)網(wǎng)輿情分析 消費輿情 輿情周報 新聞輿情 民生輿情 社會輿論熱點 輿情監(jiān)測軟件排名 網(wǎng)絡輿情 校園輿情 短視頻 輿情傳播 輿情熱點事件 旅游輿情 景區(qū)輿情 網(wǎng)絡安全 蟻坊軟件 輿情事件 輿情匯總 教育輿情 市場監(jiān)管 金融輿情 金融監(jiān)督管理局 財經(jīng)金融輿情監(jiān)測 輿情輿論匯總 學校輿情 涉警輿情 社會輿情 網(wǎng)絡熱點事件 近期輿情 突發(fā)公共事件 公安輿情監(jiān)測分析 公安類輿情 娛樂輿情 AI輿情監(jiān)測服務平臺 大數(shù)據(jù)服務平臺 輿情系統(tǒng) AI輿情監(jiān)測服務 輿情監(jiān)測解決方案 月度輿情分析 AI輿情服務 人工智能 輿論監(jiān)測 2024年報告 網(wǎng)絡輿情監(jiān)測 蟻坊 假期輿情 交通輿情 在線監(jiān)測軟件 輿情監(jiān)測預警 輿情監(jiān)測平臺 高校輿情 輿情分析研判 新媒體輿情 數(shù)據(jù)監(jiān)測 輿情查詢 輿情數(shù)據(jù)分析 輿情治理 網(wǎng)絡輿情治理 網(wǎng)絡綜合治理 網(wǎng)絡信息生態(tài)治理 輿情應對 應急輿情 輿情風險監(jiān)測 災害輿情 應急管理 輿論態(tài)勢 輿情信息分析 輿情回應 輿情風險 公共事件輿情 輿情監(jiān)測方法 互聯(lián)網(wǎng)輿情監(jiān)測平臺 視頻輿情監(jiān)測 輿情平臺 輿情預警 輿情態(tài)勢 農(nóng)業(yè)輿情 農(nóng)村輿情 老年人保護輿情 輿論風險防范 輿論監(jiān)測軟件 網(wǎng)絡輿論監(jiān)測 婦女兒童輿情 網(wǎng)紅直播 中國食品藥品安全輿情事件案例 政務輿情 大數(shù)據(jù)輿情 網(wǎng)上輿情 安全生產(chǎn) 食品輿情 輿情搜索 疫情輿情 涉穩(wěn)輿情 航空輿情 開源情報工具 輿情監(jiān)測報價 網(wǎng)絡傳播規(guī)律 傳播路徑分析 政府輿情 涉法輿情 檢察輿情 網(wǎng)絡輿情分析系統(tǒng) 抗擊疫情 疫情輿情分析 輿情管理 社交媒體輿情 謠言傳播 輿情監(jiān)測方案 網(wǎng)絡社會熱點輿情分析系統(tǒng) 免費輿情監(jiān)測軟件 免費大數(shù)據(jù)平臺有哪些 互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)哪家好 互聯(lián)網(wǎng)輿情監(jiān)測 2023年輿情分析報告 電力輿情 高考輿情 互聯(lián)網(wǎng)輿情 政府輿情監(jiān)測 輿情監(jiān)測服務商 鐵路輿情 轄區(qū)輿情監(jiān)測 如何網(wǎng)絡輿情 能源輿情 企業(yè)輿情 政策輿情 危機公關(guān) 輿情告警 智慧城市 輿情案例 數(shù)據(jù)分析軟件有哪些 網(wǎng)信辦信息匯總 輿情監(jiān)測哪家好 網(wǎng)絡輿情網(wǎng) 鄉(xiāng)鎮(zhèn)輿情 稅務輿情 輿情處置 互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng) 生態(tài)環(huán)境輿情 負面輿情 消防救援輿情 輿情案例分析 地震輿情 明星輿情 新媒體輿情監(jiān)測 自媒體輿情監(jiān)測 輿情監(jiān)控前幾大公司 社交新全媒體監(jiān)測系統(tǒng)工具平臺公司 法治輿情 司法輿情 法院輿情 網(wǎng)紅輿情 23年輿情報告 網(wǎng)絡意識形態(tài) 在線輿情監(jiān)測 涉毒輿情 科技輿情 鷹眼速讀網(wǎng) 鷹擊早發(fā)現(xiàn) 監(jiān)獄輿情輿論 大數(shù)據(jù)分析工具 大數(shù)據(jù)輿情監(jiān)測 做好輿情監(jiān)控 政府輿情監(jiān)測系統(tǒng) 大數(shù)據(jù)輿情分析 媒體輿情 媒體輿論 網(wǎng)絡在線教學輿情 煙草輿情輿論 會議輿情 輿情預警系統(tǒng) 媒體監(jiān)測 環(huán)境輿情 輿情專報 次生輿情 輿情分析服務 輿論反應 信息戰(zhàn) 輿論戰(zhàn) 輿論趨勢 新聞輿論陣地管理 自媒體傳播 自媒體亂象 女權(quán)輿論 性別矛盾 民族宗教輿情 宗教輿情 銀行輿情 互聯(lián)網(wǎng)輿情治理 2022年輿情報告 未成年人輿情 輿情引導 輿情日報 兩會輿情 審計局 輿論失焦 政法輿情 網(wǎng)絡實名制 輿情監(jiān)督 奧運會 疫情搜索大數(shù)據(jù) 輿論知識點 新聞傳播理論 新疆棉花 社會情緒指數(shù) 正面輿情 網(wǎng)絡暴力 社會性死亡 辟謠 涉犬輿情 事件過程 鷹眼輿情 鷹擊 清博大數(shù)據(jù)輿情 輿情格式 疫情輿情分析報告 抗疫英雄事跡輿情 虛假新聞 什么是輿情 2020年輿情報告 2020年輿情 深度學習算法 機器學習 輿論分析 輿情公關(guān) 虐童事件 反轉(zhuǎn)新聞 網(wǎng)紅 微輿情 微博傳播分析 手機輿情監(jiān)測 新浪輿情 新華輿情 2019網(wǎng)絡熱詞 網(wǎng)絡流行語 百度輿情監(jiān)測 企業(yè)危機管理 315 網(wǎng)絡輿情危機 網(wǎng)絡輿情監(jiān)測公司 互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng) 輿情是什么意思 德云社 網(wǎng)絡輿論分析 大數(shù)據(jù)輿情監(jiān)測案例 網(wǎng)絡熱詞 微博數(shù)據(jù)分析 輿情監(jiān)測公司 2019輿情熱點 犯罪輿情 股票輿情 消防輿情 微信輿情監(jiān)測 民航輿情 人物輿情 公益輿情 感動中國 影視輿情 輿論監(jiān)督 2019輿情 2018輿情事件盤點 2018輿情報告 免費輿情監(jiān)測系統(tǒng) 霧霾輿情 港澳臺輿情 涉軍輿情 拆遷輿情 輿情反轉(zhuǎn) 反腐輿情 海外輿情 信息惠民 體育輿情 強拆輿情 輿情指數(shù) 環(huán)保輿情