<video id="ecbc2"></video>
  • <thead id="ecbc2"><legend id="ecbc2"><nobr id="ecbc2"></nobr></legend></thead>

  • 你可能不知道的!大數(shù)據(jù)分析方法與實(shí)務(wù)應(yīng)用

    文:黃正傑 2020-06-16

    發(fā)布時(shí)間: 2020-06-11 17:11:00

    KDD 數(shù)據(jù)挖掘 大數(shù)據(jù) 數(shù)位轉(zhuǎn)型


    數(shù)據(jù)挖掘從數(shù)據(jù)裡挑出金礦


    11-14.jpg


    大數(shù)據(jù)分析是"舊方法+新數(shù)據(jù)+新運(yùn)算技術(shù)"的融合,大數(shù)據(jù)分析方法類型,製造業(yè)常見(jiàn)的大數(shù)據(jù)分析應(yīng)用方向。




    1980年代,人工智慧許多技術(shù)問(wèn)題無(wú)法突破,造成第二次衰退。於是有些學(xué)者開(kāi)始思考將焦點(diǎn)轉(zhuǎn)至解決企業(yè)特定需求的實(shí)用問(wèn)題。


    俄羅斯科學(xué)家皮埃特斯基思索從資料庫(kù)挖掘有意義的模式(pattern)、知識(shí)協(xié)助企業(yè)分析,稱為「資料庫(kù)知識(shí)發(fā)現(xiàn)」(Knowledge Discovery in Databases;KDD)。


    當(dāng)時(shí),已有一些統(tǒng)計(jì)學(xué)者運(yùn)用統(tǒng)計(jì)學(xué)方法從資料中挖掘有趣的分析,稱為「數(shù)據(jù)挖掘」(Data Mining)。皮埃特斯基認(rèn)為Data Mining並沒(méi)有具體指出其挖掘目的來(lái)自於知識(shí)發(fā)現(xiàn),因此重新命名為KDD。


    1989年,皮埃特斯基與其他學(xué)者發(fā)起KDD-89 workshop,召集21國(guó)家學(xué)者共同研究:專家知識(shí)庫(kù)系統(tǒng)、模糊規(guī)則、領(lǐng)域知識(shí)、結(jié)構(gòu)式關(guān)聯(lián)資料學(xué)習(xí)、文本處理、視覺(jué)展現(xiàn)方法等,均以實(shí)務(wù)主題為導(dǎo)向。


    1997年開(kāi)始舉辦KDD Cup知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘競(jìng)賽,至今聚集20萬(wàn)以上個(gè)專家的龐大社群。2018年,Google 併購(gòu)KDD Cup所屬經(jīng)營(yíng)團(tuán)隊(duì)Kaggle。


    KDD數(shù)據(jù)挖掘方法

    從上述歷史可以理解,KDD或數(shù)據(jù)挖掘其實(shí)就是人工智慧實(shí)用化的分支之一。1989年,KDD討論的企業(yè)數(shù)據(jù)僅有1MB數(shù)據(jù)量;如今,動(dòng)輒數(shù)百GB資料儲(chǔ)存及高性能計(jì)算能力,使大數(shù)據(jù)挖掘重啟科學(xué)界與企業(yè)界信心。


    11-6.jpg

    圖、KDD資料庫(kù)知識(shí)發(fā)現(xiàn)過(guò)程(Fayyad et. al(1996)


    KDD不僅重視知識(shí)發(fā)現(xiàn)結(jié)果,更重視知識(shí)發(fā)現(xiàn)過(guò)程。如上圖所示,典型KDD過(guò)程包含選擇、預(yù)備、轉(zhuǎn)換、數(shù)據(jù)挖掘、解釋/評(píng)估以產(chǎn)生知識(shí)。數(shù)據(jù)挖掘方法有許多種,也可說(shuō)是機(jī)器學(xué)習(xí)一部分,常見(jiàn)類型如下:

    1. 聚類 (clustering)

    聚類的目的是透過(guò)某種規(guī)則計(jì)算,將資料歸為數(shù)個(gè)不同的群組,使得群組內(nèi)差異小、組外差異大,例如: 顧客市場(chǎng)區(qū)隔、設(shè)備異常聚類等。


    2. 分類 (classification)

    分類的目的是將資料分為多個(gè)類型,並解析影響分類原因。例如: 在金融貸款中,將顧客分為會(huì)借貸與不會(huì)借貸兩種類型,及可能受到性別、年齡、所得等影響;在良率分析中,將良率訂為95%以上及以下,並分析受到原物料、設(shè)備、操作人員等影響。


    3. 回歸 (regression)

    回歸的目的是建立一個(gè)學(xué)習(xí)函數(shù),進(jìn)行數(shù)值性預(yù)測(cè)。例如:銷售金額預(yù)測(cè)、產(chǎn)品良率預(yù)測(cè)、設(shè)備壽命預(yù)測(cè)等。一家航空公司即根據(jù)過(guò)去數(shù)百個(gè)失效引擎當(dāng)下的飛行時(shí)間時(shí)的溫度、馬達(dá)轉(zhuǎn)速作為變因、及將後來(lái)失效轉(zhuǎn)速減去當(dāng)時(shí)已運(yùn)轉(zhuǎn)次數(shù),作為剩餘壽命應(yīng)變數(shù),建立學(xué)習(xí)函數(shù)。新的引擎即可透過(guò)此學(xué)習(xí)函數(shù),預(yù)測(cè)目前的剩餘壽命還有多少剩餘轉(zhuǎn)速? 藉此,可以提醒航空公司進(jìn)行維修。


    4. 依賴模型 (dependency modeling)

    依賴模型目的在於發(fā)現(xiàn)事務(wù)間的關(guān)係,包含:結(jié)構(gòu)性關(guān)係、數(shù)值性關(guān)係等,常用的方式包括:貝氏網(wǎng)路、馬可夫網(wǎng)路、隱馬可夫鏈等。這些依賴模型常用機(jī)率推論,並以圖型方式表示,被稱為機(jī)率圖型。例如:貝氏網(wǎng)路基於貝氏定理的條件機(jī)率,建立依賴關(guān)係模型,可以進(jìn)行推論與預(yù)測(cè)。如下圖所示,根據(jù)經(jīng)驗(yàn)建立多雲(yún)天氣、下雨、灑水器及草地濕的條件機(jī)率。因此,當(dāng)觀察到多雲(yún)天氣及草地濕的現(xiàn)象時(shí),可以根據(jù)貝氏網(wǎng)路關(guān)係及條件機(jī)率計(jì)算法,得到是灑水器噴灑造成的機(jī)率是0.13。


    11-8.png

    圖、貝氏網(wǎng)路機(jī)率圖型


    從KDD到大數(shù)據(jù)分析

    到這裡,大家不禁覺(jué)得1990年代的KDD舊方法,現(xiàn)在竟然又被重新炒作為大數(shù)據(jù)? 事實(shí)上,大數(shù)據(jù)發(fā)展不僅只是新演算方法或模型的發(fā)展,如:深度學(xué)習(xí);更是多樣異質(zhì)數(shù)據(jù)積累,如: 網(wǎng)路上社群意見(jiàn)、數(shù)位影像資訊、物聯(lián)網(wǎng)資料;以及數(shù)據(jù)運(yùn)算能力提升,如:雲(yún)端運(yùn)算、NVIDA圖形計(jì)算晶片。


    這些舊方法+新數(shù)據(jù),運(yùn)用在企業(yè)實(shí)務(wù)中的經(jīng)驗(yàn)與成功案例,使得大數(shù)據(jù)分析不斷受到重視。依據(jù)Rexer Analytics研究,大數(shù)據(jù)分析或被稱為「預(yù)測(cè)分析」的任務(wù)中,建立模型的時(shí)間僅有20%,其餘的時(shí)間在於業(yè)務(wù)理解(20%)、數(shù)據(jù)理解與準(zhǔn)備(36%)、撰寫報(bào)告與發(fā)表(15%)等,由上述可知企業(yè)實(shí)施重點(diǎn)更需要討論如何進(jìn)行業(yè)務(wù)需求理解及數(shù)據(jù)擷取與清理等準(zhǔn)備工作。


    大數(shù)據(jù)製造業(yè)應(yīng)用方向

    那麼,大數(shù)據(jù)在製造業(yè)有何應(yīng)用方向呢? 以下列舉幾個(gè)常見(jiàn)應(yīng)用:


    1. 預(yù)測(cè)維修

    分析設(shè)備剩餘壽命、預(yù)測(cè)損壞時(shí)間以提前維修。例如:高聖帶鋸機(jī)提供客戶進(jìn)行機(jī)器設(shè)備預(yù)測(cè)維修服務(wù);勞斯萊斯引擎透過(guò)預(yù)測(cè)維修獲得數(shù)據(jù)分析營(yíng)收。


    2. 良率預(yù)測(cè)

    分析品質(zhì)不良原因,並預(yù)測(cè)產(chǎn)出良率。例如:WD硬碟製造商運(yùn)用大數(shù)據(jù)分析技術(shù),追蹤硬碟機(jī)生產(chǎn)過(guò)程,即時(shí)分析每一批產(chǎn)品良率狀況,以避免不良品賣到顧客手中。


    3. 供應(yīng)規(guī)劃?

    供應(yīng)規(guī)劃包含庫(kù)存規(guī)劃、物流運(yùn)送規(guī)劃等。除了運(yùn)用傳統(tǒng)規(guī)劃技術(shù)外,亦可運(yùn)用KDD方式協(xié)助。例如: Dow Chemical化學(xué)公司運(yùn)用銷售預(yù)測(cè)、物料採(cǎi)買時(shí)間分析、庫(kù)存地點(diǎn)最佳化等,降低庫(kù)存成本。Jaypee Group 運(yùn)輸公司運(yùn)用KDD技術(shù),進(jìn)行最佳運(yùn)輸路徑分析,降低油料、運(yùn)輸成本。


    小結(jié)

    事實(shí)上,現(xiàn)代人工智慧技術(shù)常融合KDD方法或其他新興大數(shù)據(jù)分析技術(shù),已經(jīng)很難區(qū)別兩者。但KDD、數(shù)據(jù)挖掘、大數(shù)據(jù)分析等重視數(shù)據(jù)整理、挖掘過(guò)程,是企業(yè)實(shí)施大數(shù)據(jù)、人工智慧方案時(shí),不可遺忘的重點(diǎn)。




    9.jpg

    黃正傑

    你喜歡挑戰(zhàn)不斷隆起的技術(shù)高原、探索無(wú)限寬廣的創(chuàng)新領(lǐng)域嗎? 那麼我們是同路人。

    黃正傑,臺(tái)大資管博士,協(xié)助鼎新進(jìn)行前瞻技術(shù)研究與應(yīng)用發(fā)展。歷經(jīng)IT架構(gòu)技術(shù)顧問(wèn)、供應(yīng)鏈管理顧問(wèn)、軟體產(chǎn)業(yè)分析師等多項(xiàng)職務(wù),並兼任文化大學(xué)助理教授。讓我們一起從創(chuàng)新與變革角度,探索新興技術(shù)!


    6.jpg


    更多案例

    x
    <video id="ecbc2"></video>
  • <thead id="ecbc2"><legend id="ecbc2"><nobr id="ecbc2"></nobr></legend></thead>

  • 日本一级淫片演员 | 国产美女被操视频 | 黄片免费看。 | 亚洲欧美一| 囯产精品久久久久久久久久免费 |