機器學(xué)習怎麼學(xué)?
文:黃正傑 2020-07-27
發(fā)布時間: 2020-07-27 15:48:00

不論是大數(shù)據(jù)分析、人工智慧、乃至於機器智慧的發(fā)展,背後的重要核心技術(shù)就是「機器學(xué)習」。那麼,機器要如何學(xué)習呢? 本文簡要介紹機器學(xué)習的步驟、途徑、方法,並指出機器學(xué)習的兩個挑戰(zhàn)。
機器學(xué)習是甚麼?
在之前,我們談到現(xiàn)今大數(shù)據(jù)分析、人工智慧、乃至於機器智慧的發(fā)展,背後的重要核心技術(shù)就是「機器學(xué)習」(machine learning)。顧名思義,「機器學(xué)習就是讓機器/電腦從過去經(jīng)驗(數(shù)據(jù))中,學(xué)習如何分類(辨認)或預(yù)測(數(shù)值)」。例如:從歷史銷售數(shù)據(jù)預(yù)測下一季銷售額、從大量設(shè)備運轉(zhuǎn)狀況,預(yù)測設(shè)備剩餘壽命等;從大量圖片資料中辨認是狗或是貓;從大量手寫數(shù)字中,辨認出0-9數(shù)字。
事實上,前篇所提及的數(shù)據(jù)挖掘KDD就是根基於「機器學(xué)習」方法?,F(xiàn)今,「機器學(xué)習」方法不但包含了傳統(tǒng)數(shù)據(jù)挖掘的聚類、分類、回歸、依賴模型,更進一步涵蓋了分析圖片、文字等非結(jié)構(gòu)化數(shù)據(jù)的分析方法。
機器學(xué)習的步驟:訓(xùn)練(歸納學(xué)習)與部署(推論預(yù)測)
機器學(xué)習的步驟為何呢? 可以簡單地分為兩個階段:
1. 訓(xùn)練模型建立階段: 數(shù)據(jù)科學(xué)家根據(jù)領(lǐng)域場景、工作項目類型,進行數(shù)據(jù)蒐集、轉(zhuǎn)換、演算法選擇、乃至於校調(diào)與建立模型。最後,數(shù)據(jù)科學(xué)家評估訓(xùn)練結(jié)果好壞,選擇最適當?shù)挠?xùn)練模型(trained model)。
2. 模型部署推論階段:數(shù)據(jù)科學(xué)家或資訊工程師將訓(xùn)練模型部署為資訊應(yīng)用服務(wù)。之後,當新動物圖片、新設(shè)備狀況、下季銷售狀況等數(shù)據(jù)餵入訓(xùn)練模型服務(wù),即可進行推論(inference),產(chǎn)生分類或預(yù)測結(jié)果。預(yù)測的結(jié)果可以利用應(yīng)用程式邏輯產(chǎn)生為數(shù)值、清單或者是動態(tài)圖形等展現(xiàn)方式。

圖、機器學(xué)習步驟與階段(黃正傑,「大數(shù)據(jù)、AI應(yīng)用趨勢與R語言案例分析」,2019)
機器學(xué)習的途徑: 監(jiān)督與非監(jiān)督
要如何訓(xùn)練機器從資料中學(xué)習,進而產(chǎn)生訓(xùn)練模型呢? 一般來說,有兩種途徑,一種稱為監(jiān)督式學(xué)習(supervised learning)、另一種為非監(jiān)督式學(xué)習(unsupervised learning)。
1. 監(jiān)督式學(xué)習:
監(jiān)督式學(xué)習必須給予機器一系列影響因子的特徵(features)及結(jié)果標籤(labels)的數(shù)據(jù)進行訓(xùn)練。例如:針對設(shè)備進行剩餘壽命預(yù)估,需要一系列設(shè)備的溫度、馬達轉(zhuǎn)速、設(shè)備參數(shù)等特徵、及設(shè)備實際年限結(jié)果的組合數(shù)據(jù)。過濾垃圾郵件,可能需要被人們標籤後,放在「垃圾郵件箱」的許多郵件標題文字(文字作為特徵)的組合。之後,我們就根據(jù)大量的「特徵、標籤」的配對組合,選擇適當演算法,建立訓(xùn)練模型。
當然,如何從雜亂資料中,進行特徵、標籤的萃取、選擇、轉(zhuǎn)換,仰賴數(shù)據(jù)科學(xué)家,也仰賴各種領(lǐng)域?qū)<?如:某種機器設(shè)備、某種生產(chǎn)製程專家)協(xié)助進行。特別在非結(jié)構(gòu)化的數(shù)據(jù),諸如:圖片、文字、聲音,亦需要花費許多工夫進行特徵與標籤建立,即需要藉由人工方式分解圖片或文字的特徵或標籤化圖片或文字代表的意義。
2. 非監(jiān)督式學(xué)習:
非監(jiān)督式學(xué)習則希望不須設(shè)定標籤,即從雜亂資料中學(xué)習模式。例如:從顧客屬性、購買商品紀錄,區(qū)分不同市場顧客分群;從一群設(shè)備狀況,分析那些是異常設(shè)備。非監(jiān)督式學(xué)習通常使用在發(fā)現(xiàn)群集或從大量資料中歸納可能特徵值,以做後續(xù)監(jiān)督式學(xué)習。
此外,另一種新興的學(xué)習途徑稱為強化學(xué)習(reinforcement learning)。強化學(xué)習的標籤是動態(tài)的,根據(jù)各種回饋狀況而調(diào)整標籤值。例如:強化學(xué)習運用在遊戲或下棋,演算法可評估目前盤勢,找尋最大標籤值下個位置或動作(即不同特徵值),以取得勝利。強化學(xué)習適合運用在可動態(tài)評估情勢以計算標籤值的應(yīng)用情境。
機器學(xué)習的方法: 決策樹、分群、類神經(jīng)、深度學(xué)習
數(shù)據(jù)科學(xué)家在決定機器學(xué)習工作類型、訓(xùn)練途徑及建立數(shù)據(jù)特徵/標籤組合配對後,則可以選擇適當?shù)难菟惴椒ㄒ越⒂?xùn)練模型。機器學(xué)習方法非常多,包含決策樹(decision tree)、分群(clustering)、線性回歸(linear regression)、支援向量機(SVM)、類神經(jīng)網(wǎng)路(ANN)、深度學(xué)習(deep learning)等。
當然,複雜的人工智慧問題,必須結(jié)合各種學(xué)習途徑、學(xué)習方法、乃至傳統(tǒng)非機器學(xué)習演算法、知識庫,才能達到預(yù)期結(jié)果。如:AlphaGo結(jié)合監(jiān)督式深度學(xué)習、強化學(xué)習及人類棋譜盤勢知識等。這些常見機器學(xué)習方法已有許多的開源套件(如:R語言、Python)實現(xiàn),讓數(shù)據(jù)科學(xué)家/工程師運用開發(fā),有興趣的朋友可參考相關(guān)書籍或網(wǎng)站。
機器學(xué)習的挑戰(zhàn):業(yè)務(wù)理解、數(shù)據(jù)準備
撇開缺乏適當員工、資料治理等企業(yè)層面考量外,實施一個大數(shù)據(jù)或機器學(xué)習的專案任務(wù)的最大挑戰(zhàn),反而不是建立訓(xùn)練模型或是應(yīng)用服務(wù)部署。根據(jù)Rexer Analytics公司分析,一個大數(shù)據(jù)或機器學(xué)習的專案中,從業(yè)務(wù)需求拆解為數(shù)據(jù)分析問題的「業(yè)務(wù)理解」需要20%時間、根據(jù)數(shù)據(jù)分析問題進行數(shù)據(jù)蒐集、清洗等「數(shù)據(jù)準備」工作則需要36%時間,建立模型、應(yīng)用部署僅分別佔20%、9%時間。
例如: 在工廠品質(zhì)預(yù)測中,要根據(jù)業(yè)務(wù)情境決定哪些設(shè)備、物料特性是影響品質(zhì)的要因? 這些特性又如何轉(zhuǎn)換為有效的特徵? 這些數(shù)據(jù)又如何蒐集與清理? 要減少「業(yè)務(wù)理解」、「數(shù)據(jù)準備」兩個工作時間,提高大數(shù)據(jù)、機器學(xué)習專案的成功機率,不能僅僅仰賴外部數(shù)據(jù)科學(xué)家。建議能訓(xùn)練企業(yè)、工廠等具備領(lǐng)域經(jīng)驗的經(jīng)理人、工程師及IT人員初步理解大數(shù)據(jù)分析、機器學(xué)習概念,以加快與外部公司的數(shù)據(jù)科學(xué)家、分析師合作,更能提高機器學(xué)習專案的成功機率以及大數(shù)據(jù)分析的價值。
黃正傑
你喜歡挑戰(zhàn)不斷隆起的技術(shù)高原、探索無限寬廣的創(chuàng)新領(lǐng)域嗎? 那麼我們是同路人。
黃正傑,臺大資管博士,協(xié)助鼎新進行前瞻技術(shù)研究與應(yīng)用發(fā)展。歷經(jīng)IT架構(gòu)技術(shù)顧問、供應(yīng)鏈管理顧問、軟體產(chǎn)業(yè)分析師等多項職務(wù),並兼任文化大學(xué)助理教授。讓我們一起從創(chuàng)新與變革角度,探索新興技術(shù)!
上一頁:未來新零售!人工智慧、物聯(lián)網(wǎng)、大數(shù)據(jù)應(yīng)用無所不在
下一頁:疫情敲響警鐘 企業(yè)如何通過數(shù)位供應(yīng)鏈提升抗風險能力
返回更多案例


我想瞭解
我是用戶
我是夥伴 



