機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門
(五)機(jī)器學(xué)習(xí)的算法分類
機(jī)器學(xué)習(xí)基于學(xué)習(xí)形式的不同通?煞譃槿悾
1.監(jiān)督學(xué)習(xí)(Supervised Learning)
給學(xué)習(xí)算法提供標(biāo)記的數(shù)據(jù)和所需的輸出,對于每一個輸入,學(xué)習(xí)者都被提供了一個回應(yīng)的目標(biāo)。監(jiān)督學(xué)習(xí)主要被應(yīng)用于快速高效地教熟AI現(xiàn)有的知識,被用于解決分類和回歸的問題。常見的算法有:
(1)決策樹(Decision Trees):決策樹可看作一個樹狀預(yù)測模型,它通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例,葉子節(jié)點即為實例所屬的分類。決策樹的核心問題是選擇分裂屬性和決策樹的剪枝。決策樹是一個決策支持工具,它用樹形的圖或者模型表示決策及其可能的后果,包括隨機(jī)事件的影響、資源消耗、以及用途。用于分析判斷有無貸款意向的決策樹示如圖 所示,從商業(yè)角度看,常用于基于規(guī)則的信用評估、賽馬結(jié)果預(yù)測等。
圖6 決策樹
(2)Adaboost算法:這是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強(qiáng)的最終分類器(強(qiáng)分類器)。算法本身是改變數(shù)據(jù)分布實現(xiàn)的,它根據(jù)每次訓(xùn)練集之中的每個樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán)值。將修改權(quán)值的新數(shù)據(jù)送給下層分類器進(jìn)行訓(xùn)練,然后將每次訓(xùn)練得到的分類器融合起來,作為最后的決策分類器。AdaBoost算法主要解決了:兩類問題、多類單標(biāo)簽問題、多類多標(biāo)簽問題、大類單標(biāo)簽問題和回歸問題; 優(yōu)點:學(xué)習(xí)精度明顯增加,并且不會出現(xiàn)過擬合問題,AdaBoost算法技術(shù)常用于人臉識別和目標(biāo)跟蹤領(lǐng)域。
圖7 Adaboost
(3)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network -ANN)算法:人工神經(jīng)網(wǎng)絡(luò)是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng)。它是在現(xiàn)代神經(jīng)科學(xué)研究成果的基礎(chǔ)上提出的,試圖通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進(jìn)行信息處理。人工神經(jīng)網(wǎng)絡(luò)是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術(shù)完全不同的機(jī)理,克服了傳統(tǒng)的基于邏輯符號的人工智能在處理直覺、非結(jié)構(gòu)化信息方面的缺陷,具有自適應(yīng)、自組織和實時學(xué)習(xí)的特點。
圖8 人工神經(jīng)網(wǎng)絡(luò)
(4)SVM(Support Vector Machine):SVM 法即支持向量機(jī)算法,由Vapnik等人于1995年提出,具有相對優(yōu)良的性能指標(biāo)。該方法是建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。 SVM是一種二分算法。假設(shè)在N維空間,有一組點,包含兩種類型,SVM生成a(N-1) 維的超平面,把這些點分成兩組。比如你有一些點在紙上面,這些點是線性分離的。SVM會找到一個直線,把這些點分成兩類,并且會盡可能遠(yuǎn)離這些點。從規(guī)模看來,SVM(包括適當(dāng)調(diào)整過的)解決的一些特大的問題有:廣告、人類基因剪接位點識別、基于圖片的性別檢測、大規(guī)模圖片分類,適用于新聞分類、手寫識別等應(yīng)用。
圖9 支持向量機(jī)算法
(5)樸素貝葉斯(Naive Bayesian):貝葉斯法是一種在已知先驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。樸素貝葉斯分類器基于把貝葉斯定理運(yùn)用在特征之間關(guān)系的強(qiáng)獨(dú)立性假設(shè)上。優(yōu)點:在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點:對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù),F(xiàn)實生活中的應(yīng)用例子:電子郵件垃圾副過濾、判定文章屬性分類、分析文字表達(dá)的內(nèi)容含義和人臉識別、情感分析、消費(fèi)者分類。
圖10 樸素貝葉斯算法
(6)K-近鄰(k-Nearest Neighbors,KNN):這是一種分類算法,其核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時,只與極少量的相鄰樣本有關(guān)。由于kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。
圖11 K-近鄰算法
(7)邏輯回歸(Logistic Regression):這是一種分類算法,主要用于二分類問題。邏輯回歸是一種非常強(qiáng)大的統(tǒng)計方法,可以把有一個或者多個解釋變量的數(shù)據(jù),建立為二項式類型的模型,通過用累積邏輯分布的邏輯函數(shù)估計概率,測量分類因變量和一個或多個獨(dú)立變量之間的關(guān)系。邏輯回歸是一種非線性回歸模型,相比于線性回歸,它多了一個sigmoid函數(shù)(或稱為Logistic函數(shù))。通常,回歸在現(xiàn)實生活中的用途如下:信用評估、測量市場營銷的成功度、預(yù)測某個產(chǎn)品的收益、特定的某天是否會發(fā)生地震,路面交通流量分析、郵件過濾。
圖12 邏輯回歸算法
(8)隨機(jī)森林算法(Random Forest):隨機(jī)森林算法可以用于處理回歸、分類、聚類以及生存分析等問題,當(dāng)用于分類或回歸問題時,它的主要思想是通過自助法重采樣,生成很多個樹回歸器或分類器。在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定,常用于用戶流失分析、風(fēng)險評估。
圖13 隨機(jī)森林算法
(9)線形回歸( Linear Regression):這是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法,運(yùn)用十分廣泛。線性回歸是回歸分析中第一種經(jīng)過嚴(yán)格研究并在實際應(yīng)用中廣泛使用的類型。這是因為線性依賴于其未知參數(shù)的模型比非線性依賴于其位置參數(shù)的模型更容易擬合,而且產(chǎn)生的估計的統(tǒng)計特性也更容易確定。
圖14 線形回歸算法

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?