123,123,123

<center id="blw0b"></center>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

人工智能之決策樹(DT)

2018-05-05 02:19

AI優(yōu)化生活

決策樹停止分支方法：

剪枝是決策樹停止分支的方法之一，剪枝有分預(yù)先剪枝和后剪枝兩種。

1）預(yù)先剪枝（Public算法）是在樹的生長過程中設(shè)定一個(gè)指標(biāo)，當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長，容易產(chǎn)生“視界局限”，即一旦停止分支，使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn)，就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。會(huì)誤導(dǎo)學(xué)習(xí)算法，導(dǎo)致產(chǎn)生的樹不純度降差最大的地方過分靠近根節(jié)點(diǎn)。

人工智能之決策樹(DT)

2）后剪枝（Sprint算法）中樹首先要充分生長，直到葉節(jié)點(diǎn)都有最小的不純度值為止，因而可以克服“視界局限”。然后對(duì)所有相鄰的成對(duì)葉節(jié)點(diǎn)考慮是否消去它們，如果消去能引起令人滿意的不純度增長，那么執(zhí)行消去，并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種“合并”葉節(jié)點(diǎn)的做法和節(jié)點(diǎn)分支的過程恰好相反，經(jīng)過剪枝后葉節(jié)點(diǎn)常常會(huì)分布在很寬的層次上，樹也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng)，且無需保留部分樣本用于交叉驗(yàn)證，所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計(jì)算量代價(jià)比預(yù)剪枝方法大得多，特別是在大樣本集中，不過對(duì)于小樣本的情況，后剪枝方法還是優(yōu)于預(yù)剪枝方法的。

人工智能之決策樹(DT)

決策樹與條件概率：

決策樹模型呈樹形結(jié)構(gòu)，在分類問題中，表示基于特征對(duì)實(shí)例進(jìn)行分類的過程。它可以認(rèn)為是if－then規(guī)則的集合，也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布，即決策樹可以依靠計(jì)算條件概率來構(gòu)造。決策樹如果依靠數(shù)學(xué)的計(jì)算方法可以取得更加理想的效果。數(shù)據(jù)庫已如下所示：

（x， y）＝（x1， x2， x3…， xk， y）

相關(guān)的變量 Y 表示嘗試去理解，分類或者更一般化的結(jié)果。其他的變量x1， x2， x3 等則是幫助達(dá)到目的的變量。

決策樹常見算法：

決策樹的常見的算法包括：1）分類及回歸樹（Classification And Regression Tree， CART），2）ID3（IterativeDichotomiser 3），3）C4．5，4）Chi－squared Automatic Interaction Detection（CHAID）， 5）Decision Stump， 6）隨機(jī)森林（Random Forest），7）多元自適應(yīng)回歸樣條（MARS），8）梯度推進(jìn)機(jī)（Gradient Boosting Machine，GBM）等等。

其中，隨機(jī)森林（RandomForest）是作為新興起的、高度靈活的一種決策樹算法。它是用訓(xùn)練數(shù)據(jù)隨機(jī)的計(jì)算出許多決策樹，形成了一個(gè)森林。然后用這個(gè)森林對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)，選取投票最多的分類。此算法的錯(cuò)誤率得到了經(jīng)一步的降低。這種方法背后的原理可以用“三個(gè)臭皮匠定一個(gè)諸葛亮”這句諺語來概括。一顆樹預(yù)測(cè)正確的概率可能不高，但是集體預(yù)測(cè)正確的概率卻很高。

決策樹優(yōu)點(diǎn)：

1）易于理解和實(shí)現(xiàn)：在學(xué)習(xí)過程中不需要使用者了解很多的背景知識(shí)，只要通過解釋后都有能力去理解決策樹所表達(dá)的意義；

2）效率高、效果好：對(duì)于決策樹，數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的，而且能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性，在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果；

3）易于評(píng)測(cè)和生成：易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè)，可以測(cè)定模型可信度；如果給定一個(gè)觀察的模型，那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。

決策樹缺點(diǎn)：

1）對(duì)連續(xù)性的字段比較難預(yù)測(cè)；

2）對(duì)有時(shí)間順序的數(shù)據(jù)，需要很多預(yù)處理的工作；

3）當(dāng)類別太多時(shí)，錯(cuò)誤可能就會(huì)增加的比較快；

4）一般的算法分類的時(shí)候，只是根據(jù)一個(gè)字段來分類。

決策樹應(yīng)用前景：

決策樹具有條理清晰，程序嚴(yán)謹(jǐn)，定量、定性分析相結(jié)合，方法簡單，易于掌握，應(yīng)用性強(qiáng)，適用范圍廣等優(yōu)點(diǎn)。人們逐漸認(rèn)識(shí)到，在投資方案比較選擇時(shí)考慮時(shí)間因素，建立時(shí)間可比原則和條件的重要性。當(dāng)今的社會(huì)經(jīng)濟(jì)活動(dòng)中，競爭日趨激烈，現(xiàn)代企業(yè)的經(jīng)營方向面臨著許多可供選擇的方案，如何用最少的資源，贏得最大的利潤以及最大限度地降低企業(yè)的經(jīng)營風(fēng)險(xiǎn)，是企業(yè)決策者經(jīng)常面對(duì)的決策問題，決策樹法能簡單明了地幫助企業(yè)決策層分析企業(yè)的經(jīng)營風(fēng)險(xiǎn)和經(jīng)營方向。必然地，隨著經(jīng)濟(jì)的不斷發(fā)展，企業(yè)需要做出決策的數(shù)量會(huì)不斷地增加，而決策質(zhì)量的提高取決于決策方法的科學(xué)化。企業(yè)的決策水平提高了，企業(yè)的管理水平就一定會(huì)提高。

人工智能之決策樹(DT)

結(jié)語：

決策樹采用的是一種簡單且直觀的“分而治之”（divide－and－conquer）策略。決策樹的核心是通過對(duì)數(shù)據(jù)的學(xué)習(xí)，選定判斷節(jié)點(diǎn)，構(gòu)造一顆合適的決策樹。決策樹是一個(gè)有監(jiān)督的分類模型，其本質(zhì)是選擇一個(gè)能帶來最大信息增益的特征值進(jìn)行樹的分割，直到到達(dá)結(jié)束條件或者葉子結(jié)點(diǎn)純度到達(dá)一定閾值。決策樹是人工智能之機(jī)器學(xué)習(xí)中比較常見的算法，相比樸素貝葉斯分類，決策樹優(yōu)勢(shì)在于構(gòu)造過程不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置，因此在實(shí)際應(yīng)用中，對(duì)于探測(cè)式的知識(shí)發(fā)現(xiàn)，決策樹更加適用，其應(yīng)用超級(jí)廣泛。

<上一頁 1 2

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<code id="hllbc"></code>

<source id="hllbc"><tbody id="hllbc"><dfn id="hllbc"></dfn></tbody></source><thead id="hllbc"><optgroup id="hllbc"><menuitem id="hllbc"></menuitem></optgroup></thead>