DataOps(數(shù)據(jù)運(yùn)營(yíng),DataOps,即Data和Operations組合,DataOps 的定義是:一種面向流程的自動(dòng)化方法,由分析和數(shù)據(jù)團(tuán)隊(duì)使用,旨在提高數(shù)據(jù)分析的質(zhì)量并縮短數(shù)據(jù)分析的周期。)匯集了DevOps團(tuán)隊(duì)和數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家,提供實(shí)現(xiàn)數(shù)據(jù)主導(dǎo)型企業(yè)的工具、流程、技能。

來(lái)源:FATOS BYTYQI
一、DataOps是什么?
DataOps(數(shù)據(jù)運(yùn)營(yíng))是為了提高開(kāi)發(fā)和分析的敏捷性、面向過(guò)程的方法論。DevOps團(tuán)隊(duì)由數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家組成,提供支持重視數(shù)據(jù)的企業(yè)的工具、流程、組織結(jié)構(gòu)。調(diào)查公司Gartner進(jìn)一步說(shuō)明了這個(gè)方法論是“改善整個(gè)組織的數(shù)據(jù)管理者和數(shù)據(jù)用戶之間的溝通、整合、數(shù)據(jù)流的自動(dòng)化過(guò)程方法”。
二、DataOps的目標(biāo)
根據(jù)Dataversity,DataOps的目標(biāo)是合理化基于數(shù)據(jù)和數(shù)據(jù)分析的應(yīng)用程序的設(shè)計(jì)、開(kāi)發(fā)和維護(hù)。改善數(shù)據(jù)管理方法和(數(shù)據(jù))產(chǎn)品制作方法,以及時(shí)應(yīng)對(duì)業(yè)務(wù)目標(biāo)調(diào)整。根據(jù)Gartner的說(shuō)法,DataOps也是“通過(guò)創(chuàng)建數(shù)據(jù)、數(shù)據(jù)模型以及相關(guān)成果物的可預(yù)測(cè)的交付和變更管理,更快地為業(yè)務(wù)提供價(jià)值”的目標(biāo)。
三、DataOps和DevOps的關(guān)系
DevOps(開(kāi)發(fā)與運(yùn)營(yíng)一體化)是將開(kāi)發(fā)團(tuán)隊(duì)和運(yùn)營(yíng)團(tuán)隊(duì)組合起來(lái),使其成為負(fù)責(zé)產(chǎn)品和服務(wù)的單一單元,為系統(tǒng)開(kāi)發(fā)生命周期帶來(lái)持續(xù)交付的軟件開(kāi)發(fā)方法論。DataOps基于這個(gè)概念,加入了數(shù)據(jù)分析師、數(shù)據(jù)開(kāi)發(fā)人員、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家等數(shù)據(jù)專(zhuān)家,數(shù)據(jù)流的共同開(kāi)發(fā)和整個(gè)組織數(shù)據(jù)的持續(xù)使用。
專(zhuān)門(mén)從事DataOps的可視化和自動(dòng)化軟件的DataKitchen聲稱(chēng)DataOps不僅僅是“數(shù)據(jù)DevOps”。無(wú)論哪種方法都是為了加速軟件開(kāi)發(fā)(DataOps是數(shù)據(jù)開(kāi)發(fā)利用分析的軟件),但DataOps需要同時(shí)管理數(shù)據(jù)運(yùn)營(yíng)。
四、DataOps的原則
和DevOps一樣,DataOps也從敏捷方法中得到了啟發(fā)。這種方法以滿足顧客需求為首要目的,重視持續(xù)提供分析的洞察力。
根據(jù)DataOps Manifesto,DataOps團(tuán)隊(duì)重視功能性分析,用數(shù)據(jù)分析帶來(lái)的有效決策信息來(lái)衡量其性能。DataOps團(tuán)隊(duì)也旨在接受變化,以理解不斷進(jìn)化的客戶需求。朝著目標(biāo)自我進(jìn)化,優(yōu)先考慮可持續(xù)和可擴(kuò)展的團(tuán)隊(duì)和流程,努力減少“英雄主義”。
另外,DataOps團(tuán)隊(duì)從頭到尾對(duì)數(shù)據(jù)、工具、代碼和環(huán)境進(jìn)行集成與協(xié)同,以提供可復(fù)用的結(jié)果為目標(biāo)。這種團(tuán)隊(duì)對(duì)現(xiàn)有數(shù)據(jù)分析管道進(jìn)行持續(xù)整合優(yōu)化,定期從顧客、團(tuán)隊(duì)成員、運(yùn)用統(tǒng)計(jì)中得到反饋。
五、DataOps的適用范圍
現(xiàn)在的企業(yè)越來(lái)越多地將機(jī)器學(xué)習(xí)納入大量的產(chǎn)品和服務(wù)中,DataOps是以支持機(jī)器學(xué)習(xí)的端到端需求為目的的方法。
Ted Dunning先生和Ellen Friedman先生說(shuō):“例如,在引入機(jī)器學(xué)習(xí)環(huán)境中,數(shù)據(jù)科學(xué)家在部署過(guò)程中將模型移交給運(yùn)營(yíng)團(tuán)隊(duì)時(shí),提供必要的軟件工程師。他在著作《Machine Learning Logistics》中記載了對(duì)機(jī)器學(xué)習(xí)訓(xùn)練的支持變得更加可行。
作者還補(bǔ)充說(shuō),“DataOps的方法并不局限于機(jī)器學(xué)習(xí)”。采用數(shù)據(jù)運(yùn)營(yíng)的組織對(duì)所有以數(shù)據(jù)為導(dǎo)向的工作都很有效,可以很容易地利用構(gòu)建全球數(shù)據(jù)匯聚所帶來(lái)的好處?!?/p>
另外,DataOps也與微服務(wù)架構(gòu)很相配。
六、DataOps的實(shí)踐
為了充分利用DataOps,Dunning先生和Friedman先生說(shuō),企業(yè)需要進(jìn)化數(shù)據(jù)管理戰(zhàn)略,在應(yīng)對(duì)現(xiàn)實(shí)事件時(shí)處理規(guī)模較大的數(shù)據(jù)。
DataOps建立在DevOps上,兼顧開(kāi)發(fā)、軟件工程、架構(gòu)和規(guī)劃、產(chǎn)品管理、數(shù)據(jù)分析、數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)工程等崗位以建立包含“技能公會(huì)”的跨功能團(tuán)隊(duì),通過(guò)確保開(kāi)發(fā)者、運(yùn)營(yíng)負(fù)責(zé)人、數(shù)據(jù)專(zhuān)家之間的協(xié)作和溝通更加敏捷高效的方法來(lái)管理團(tuán)隊(duì)。
根據(jù)Dunning先生的說(shuō)法,數(shù)據(jù)科學(xué)家也可能被列為DataOps團(tuán)隊(duì)的主要成員。“這里最重要的是,我認(rèn)為數(shù)據(jù)科學(xué)家不能呆在象牙塔當(dāng)中,而讓數(shù)據(jù)開(kāi)發(fā)與運(yùn)營(yíng)團(tuán)隊(duì)孤立無(wú)援。”最重要的一步是實(shí)際加入DevOps團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家,要與DataOps團(tuán)隊(duì)在同一個(gè)房間工作,吃同樣的飯,聽(tīng)到同樣的投訴,自然就會(huì)步調(diào)一致?!?/p>
但是Dunning先生也指出,數(shù)據(jù)科學(xué)家可能不需要經(jīng)常在DataOps團(tuán)隊(duì)。
“一般來(lái)說(shuō),數(shù)據(jù)科學(xué)家會(huì)暫時(shí)被分配到團(tuán)隊(duì)中,”Dunning先生解釋道。數(shù)據(jù)科學(xué)家的能力和感性開(kāi)始影響周?chē)娜?,團(tuán)隊(duì)中的可安排專(zhuān)人作為數(shù)據(jù)工程師,以扮演低預(yù)算數(shù)據(jù)科學(xué)家的角色。之后,實(shí)際隸屬于隊(duì)伍的數(shù)據(jù)科學(xué)家離開(kāi)了隊(duì)伍。隊(duì)伍的狀態(tài)是流動(dòng)的。”
七、DataOps團(tuán)隊(duì)要掌握的技能方法
很多基于DevOps的企業(yè)已經(jīng)掌握了DataOps團(tuán)隊(duì)的核心。識(shí)別出需要數(shù)據(jù)密集型開(kāi)發(fā)的項(xiàng)目后,只需將接受數(shù)據(jù)培訓(xùn)的人納入團(tuán)隊(duì)即可。在許多情況下,新人并不是數(shù)據(jù)科學(xué)家,而是數(shù)據(jù)工程師。DataKitchen向組織提出:尋找專(zhuān)門(mén)從事構(gòu)建和實(shí)施能夠?qū)崿F(xiàn)數(shù)據(jù)組織內(nèi)協(xié)作流程的DataOps工程師的建議——培訓(xùn)從開(kāi)發(fā)到正式交付,能夠?yàn)榘葱枋褂糜布?、軟件、?shù)據(jù)和其他資源而設(shè)計(jì)協(xié)作機(jī)制的DataOps人才隊(duì)伍。
許多團(tuán)隊(duì)由擁有重復(fù)技能組合的成員組成,另外,個(gè)人根據(jù)專(zhuān)業(yè)性,在DataOps團(tuán)隊(duì)中可以扮演多個(gè)角色。
根據(jù)Forrester的副總裁兼首席分析師Michele Goetz的說(shuō)法,DataOps團(tuán)隊(duì)的主要專(zhuān)業(yè)領(lǐng)域包括:
1、數(shù)據(jù)庫(kù)
2、整合
3、從數(shù)據(jù)到過(guò)程的整合與協(xié)同
4、數(shù)據(jù)策略的部署
5、數(shù)據(jù)和模型的整合
6、數(shù)據(jù)安全和隱私管理
無(wú)論構(gòu)成如何,DataOps團(tuán)隊(duì)都必須以用戶為中心建立數(shù)據(jù)驅(qū)動(dòng)滿足用戶需求的共同目標(biāo)。
八、DataOps的職務(wù)
Goetz先生說(shuō),DataOps的團(tuán)隊(duì)由以下成員組成。
1、數(shù)據(jù)專(zhuān)家:支持?jǐn)?shù)據(jù)的展現(xiàn)和開(kāi)發(fā)的最佳實(shí)踐。
2、數(shù)據(jù)工程師:提供BI、分析、商業(yè)應(yīng)用的臨時(shí)性系統(tǒng)支持。
3、首席數(shù)據(jù)工程師:從事產(chǎn)品和面向顧客的成果的開(kāi)發(fā)人員。
九、DataOps的工資
根據(jù)PayScale的數(shù)據(jù),下面介紹與DataOps相關(guān)的最受歡迎的職業(yè)和各職業(yè)的平均工資。
1、分析經(jīng)理:$72,000~$134,000
2、助理數(shù)據(jù)科學(xué)家:$61,000~$101,000
3、數(shù)據(jù)分析師:$46,000~$89,000
4、數(shù)據(jù)架構(gòu)師:$81,000~$162,000
5、數(shù)據(jù)工程師:$67,000~$134,000
6、數(shù)據(jù)科學(xué)家:$70,000~$137,000
7、分析項(xiàng)目總監(jiān):$85,000~$177,000
十、DataOps工具
以下是DataOps的代表性工具。
1、Census:從唯一值得信賴(lài)的信息來(lái)源(數(shù)據(jù)倉(cāng)庫(kù)等)到CRM和廣告平臺(tái)等最先進(jìn)的系統(tǒng)同步數(shù)據(jù)的過(guò)程,針對(duì)反向ETL的運(yùn)用分析平臺(tái)。
2、Databricks Lakehouse Platform:整合數(shù)據(jù)倉(cāng)庫(kù)和AI用例的數(shù)據(jù)管理平臺(tái)。
3、Datafold:用于檢測(cè)和修正數(shù)據(jù)質(zhì)量問(wèn)題的數(shù)據(jù)質(zhì)量平臺(tái)。
4、DataKitchen:多工具、多環(huán)境數(shù)據(jù)管道端到端管弦的數(shù)據(jù)觀測(cè)、自動(dòng)化平臺(tái)。
5、Dbt:用于創(chuàng)建數(shù)據(jù)管道的數(shù)據(jù)轉(zhuǎn)換工具。
6、Tengu:管理數(shù)據(jù)和管道的DataOps協(xié)同平臺(tái)