
雖然從2014年開始,就已經出現MLOps的實踐案例,但這套AI協作的概念兩年前被重新定義,形成一股AI開發(fā)新趨勢吹進全球。
MLOps興起主要有三大原因。第一,是企業(yè)用過去的開發(fā)方法來擴大AI應用規(guī)模時,開始面臨瓶頸,Line臺灣資料工程部資深經理蔡景祥以自身經驗為例表示,過去只有自己一人開發(fā)AI時,能清楚了解每個程式開發(fā)步驟的意涵,但這種開發(fā)流程過於客制化,一旦有第二個角色要共同協作,就得相互溝通來理解每個開發(fā)步驟,徒增許多溝通成本。
勤業(yè)眾信去年發(fā)布的技術趨勢報告也提到,企業(yè)剛開始開發(fā)AI時,容易采取英雄主義作法,靠少數資料科學家包辦從頭到尾的開發(fā)流程,但這些流程高度手動、難被復制或擴張,會增加協作過程中的溝通成本,難以提升開發(fā)速度。藉由MLOps的實踐,才能讓過去自成一格的特制化開發(fā)(Exceptionalism),走向快速擴張且更有效率的專業(yè)化開發(fā)(Professionalism)。
第二,則是AI開發(fā)面臨部署上線的挑戰(zhàn),讓更多企業(yè)開始采用MLOps。根據國外企管顧問公司Vantage Partners去年調查,在美國,盡管有91.5%的企業(yè)都表示正在持續(xù)投資AI,卻只有14.6%的企業(yè)已經將AI部署到生產環(huán)境,換句話說,實作了AI卻難以部署上線,就是企業(yè)應用AI的一大痛點。
IDC在2020年發(fā)布的全球AI采用度調查也發(fā)現,根據受調查的2,000多位IT或相關主管回覆,仍有約有28%的專案因缺乏專家、生產數據與整合的開發(fā)環(huán)境,最終以失敗收尾。IDC因此鼓吹,企業(yè)必須擁抱MLOps,才能更大規(guī)模的實現AI。
勤業(yè)眾信風險管理諮詢副總經理廖子毅更以身為資料科學家的開發(fā)經驗點出模型部署的難處。他解釋,雖然在AI開發(fā)的實驗階段,資料科學家可以在數周內快速訓練出良好準確率的模型,但是,一旦要落地生產環(huán)境,就需要根據現實資料進一步調校模型,還要將模型打包成預測服務,手動開發(fā)的過程可能要花費數月甚至一年以上。因此,企業(yè)得建立起持續(xù)交付、持續(xù)部署的作業(yè)流程,才能加速落地AI。
第三個促使MLOps在一年內快速成長的原因,則是受到疫情帶動大環(huán)境快速改變,導致許多部署上線的模型在一夕間不敷使用,凸顯了AI維運的挑戰(zhàn)。勤業(yè)眾信內部觀察,疫情期間的「新常態(tài)」,導致許多供應鏈需求預測模型,已經無法再仰賴過去的數據和假設,需要滾動蒐集企業(yè)與用戶資料,必要時更需重新訓練模型,才能維持預測服務的準確率。
業(yè)界也開始感受到MLOps市場升溫,一家MLOps軟體商DataRobot臺灣總經理蔡宜真透露,近一年來,企業(yè)對MLOps的詢問度提升,除了疫情驅動企業(yè)加速采用AI,連帶的提升對MLOps的關注,更因消費者行為的大幅改變,導致模型表現快速偏移,來詢問的企業(yè)正因這個契機重新檢視模型維運的流程,開始意識到MLOps的重要性。

更多AI廠商加入戰(zhàn)局,要瓜分2025年40億美元市場大餅
勤業(yè)眾信制作了一張全球MLOps版圖,整理了三大類別的MLOps廠商名單,包括全球六大AI與MLOps服務供應商、從ML平臺跨足MLOps解決方案的供應商、以及僅提供MLOps解決方案的業(yè)者。(圖片來源/勤業(yè)眾信)
MLOps概念興起後,市場上越來越多AI服務供應商投入這個市場,帶動了MLOps的聲量。比如公有云大廠如微軟、Google以及AWS,本來就提供完整的AI開發(fā)服務,微軟更在2019年的Build大會上,率先宣布了Azure ML服務中的MLOps功能,Google以及AWS隨後跟進,就是讓開發(fā)者能透過平臺工具快速建立ML工作流,更著力於AI全生命周期的管理與監(jiān)控,來加速AI產品化。
勤業(yè)眾信內部制作了一張全球MLOps版圖,除了名列三家公有云業(yè)者,更將IBM、SAS與HPE,劃入AI與MLOps大型服務供應商的行列。
MLOps版圖更顯示,在公有云推出服務之前,市面上也已經有些ML平臺服務供應商,提供企業(yè)從開發(fā)到維運端的平臺服務,讓企業(yè)能快速導入來開發(fā)AI應用,比如Databricks、DataRobot、Dataiku、Iguazio、C3.ai、H2O.ai等廠商;後來MLOps興起,這些廠商更進一步聚焦ML部署與維運端的工具,奠基在原本的ML平臺的基礎上提供MLOps服務。除此之外,市場上也出現了單純提供MLOps解決方案的新創(chuàng)企業(yè),比如Dotscience、Algorithmia、Datmo等。
勤業(yè)眾信風險管理諮詢副總經理許梅君提供一份內部估計,MLOps市場預計在2025年達到40億美元,復合年增長率為50%,將成企業(yè)擴大應用AI的又一大關鍵市場。
除了導入相關工具與平臺,許梅君也提醒,企業(yè)需建立一套管理機制,讓AI在合規(guī)的前提下快速落地,比如資料治理的規(guī)范、資料及專案的權限管理、資安與AI風險的管理,也需透過相關規(guī)則的建立,避免AI做出違背常理的判斷或有偏見的決策,且當AI用於個人化決策的場景,更要建立可解釋性AI機制,以及人機協作進行決策的原則或方法。
「導入工具或平臺來解決局部的問題,能夠快速看見AI開發(fā)的成效,但光是這樣不能解決企業(yè)面臨的所有問題,還要建立起管理機制,帶動組織或文化的改變。 」許梅君說。
不只講究ML模型自動化,AI維運也是MLOps關鍵
「過去,資料科學家部署完模型後,就認為工作已經告一段落,沒有模型維運的概念,」DataRobot資料科學家藍秀仁解釋,以前只講Model Management,聚焦開發(fā)流程中的版本管理。直到近幾年,模型上線後表現產生偏移而失效,才讓更多人認真的看待模型維運的重要性,在MLOps中,更重視透過監(jiān)控并迭代更新模型,來維持預測服務的準確率。
MLOps泛指從AI開發(fā)到維運各階段的協作,若聚焦在ML部署與維運階段,涵蓋了從模型快速部署、上線、監(jiān)控到重新訓練等機制。
這個階段不只要讓不同程式語言、架構開發(fā)的ML模型,能夠快速部署到生產環(huán)境,整合到系統(tǒng)或App來提供預測服務。預測服務上線後,也需透過監(jiān)控機制來檢視模型表現,來了解部署在本地端、云端的每個ML模型,每日新進的輸入資料是否漂移、模型的準確率是否下降、預測服務是否健康,更要能長期監(jiān)控模型表現的變化趨勢,來更全面的評估是否有重新訓練、迭代更新的需求。
藍秀仁也建議,企業(yè)應在維運監(jiān)控階段,納入一般常識檢查的判斷機制,像是,讓上線後的ML模型預測結果,不會違背常理或超出現實,比如若AI預測出年齡超過120歲、日薪超過千萬,或是自駕車辨識道路的信心值不夠高,就會透過一套機制來阻止決策執(zhí)行。
另外,為了避免模型做出偏誤決策而不自知,企業(yè)也應設計偏誤資料的監(jiān)測機制,在模型輸出不公正預測結果時,找出隱含偏見的訓練資料,再交由開發(fā)人員將偏誤資料去除,重新進行模型開發(fā)、部署更新的流程。
如何選擇MLOps工具?
勤業(yè)眾信提供了一家AI解決方案供應商Ambiata所制作的MLOps工具比較表,可做為企業(yè)評選MLOps商用與開源工具之用。這個比較表將MLOps工具分為四個類別,分別是資料與Pipeline版本控管、模型實驗版本控管、超參數調校、模型部署與監(jiān)控。勤業(yè)眾信提醒,企業(yè)得先清楚了解哪一個環(huán)節(jié)有需求,例如待解決的開發(fā)痛點,再來導入相應功能的工具。
由於功能相近的MLOps軟體很多,企業(yè)也可以進一步根據自身常用的程式言語與函式庫,比如企業(yè)開發(fā)AI時,使用Python與R來開發(fā),常用如Tensorflow、PyTorch、Keras、Scikit-learn等函式庫,來選擇可支援開發(fā)的MLOps工具導入。
在挑選工具時,也能參考GitHub上的評分星級、貢獻者或員工數量,列為挑選工具的一大考量,前者可作為該工具受歡迎程度的參考,後者則可以作為該工具能否長期支持AI開發(fā)的指標。