10月26日消息,10月19日,在2021年云棲大會上,阿里云重磅發布DataWorks全鏈路數據治理產品體系,基于數據倉庫,數據湖、湖倉一體等多種大數據架構,DataWorks幫助企業治理內部不斷上漲的“數據懸河”,釋放企業的數據生產力。
阿里巴巴集團副總裁 阿里云智能計算平臺事業部高級研究員賈揚清現場分享
“當數據量變得越來越大,單位數據的價值會變得越來越小。全鏈路數據治理讓數據從低質低效向高質高效流動。”
阿里巴巴集團副總裁,阿里云智能計算平臺事業部高級研究員賈揚清在現場表示。黃河泥沙的淤積使河床不斷抬高,形成了河高于地平面的“地上懸河”,在河南開封,最高的懸河達到10米,并且河床每年都會以10厘米的速度增高,而隨之而來的,兩邊的堤壩也在不斷地增高。在企業的數字化轉型中,數據量變得越來越大,機器變得越來越多,團隊變得越來越大,數字化轉型真的變得越來越好嗎?對于企業來說,表象的繁榮不代表未來不會發生一場“洪水”。在阿里巴巴,雙11已經成為了日常,2021年大數據計算服務MaxCompute的日常數據處理的水位線已經超過2020年雙11的峰值,不斷增長的數據量已經造成了極大的成本與效率的壓力。
l 機器的效率+人的效率=數據的效率
面對每年如此膨脹的數據,阿里巴巴的解法是通過大數據+AI一體化平臺的能力,讓數據效率成為企業的核心指標。在機器的效率層面,MaxCompute作為離線數倉,單日數據處理量已經達到1.7EB,但是除了數據量,更應該關注的是MaxCompute僅用10%的機器增長,就支撐了75%的數據量增長。這里面是MaxCompute在底層的存儲和性能不斷地追求極致的優化,并且連續5年打破TPCx-BigBench 100TB規模性能世界記錄。同時Hologres作為實時數倉,峰值每秒寫入5.96億條,單表存儲高達2.5PB,基于萬億級數據對外提供多維分析和服務,99.99%的查詢可以在80ms以內返回結果。Hologres與MaxCompute組成離線、實時、分析、服務一體化的數據倉庫,從底層就極大地簡化了大數據架構的復雜度。機器層面的效率往往容易被衡量,但是人的效率卻很難被量化。DataWorks從2009年開始成為阿里巴巴集團統一的大數據開發治理平臺,完成阿里巴巴數據中臺的搭建。對一個平臺的完善性與易用性,用戶往往會用腳投票。目前在DataWorks上構建的大規模協同數據中臺的每日活躍用戶數已經超過5萬,平均每3個阿里巴巴員工就有1個在使用DataWorks,服務阿里巴巴內部幾乎所有部門,沉淀的全鏈路數據治理核心能力超過數百項。FY2020,阿里巴巴通過數據治理的綜合收益超過10億元,可以說大數據開發治理平臺DataWorks與計算引擎MaxCompute、Hologres組成了大數據架構下的“Wintel聯盟”,共同提高企業數據的效率。
l 建設經驗:從小作坊到大平臺到敏捷制造
數據治理也好、數據中臺也好,從來也不是一個從象牙塔里想出來的產品,而是經過很多年磨出來的。阿里巴巴的數字化轉型也經歷過刀耕火種的年代,每個業務團隊維護多套Hadoop集群,像一個個小作坊:有什么用什么,需要什么加什么,各種技術組件像搭積木一樣逐漸堆砌起來。而在這個過程中,經常會非常痛苦,平臺發布了一個新的功能,不知道什么原因把另一個組件搞掛了,然后技術人員花很長時間去排查另一個組件有什么問題,修復了一個組件,發布了一下,又把另一個搞掛了,問題不斷冒出就像“按下葫蘆浮起瓢”,好像永遠沒有盡頭。于是,阿里巴巴開始轟轟烈烈的平臺統一計劃,搭建起了大平臺,把開源的架構改成自研的架構,數據逐漸都遷移到MaxCompute上。這個時候數據中臺的概念也開始在集團內推廣,逐漸將3個ONE的數據中臺方法論落地到DataWorks,完成了阿里巴巴整個數據中臺的搭建。至此,從核心的電商天貓淘寶,到餓了么、優酷、盒馬等各個業務團隊都在同一套大平臺上進行一站式的協同數據開發。但是隨著大平臺的普及,使用的人數越來越多,數據的治理也會越變得更加復雜。在不斷產生成千上萬張表中,企業無法知道有多少條不規范的語句像白蟻一樣正在消耗大量的計算資源;有多少張表正在重復地被復制,制造表象的“數據繁榮”;有多少臟數據在不斷生產污染數據的質量;有多少張表正在被不斷申請權限使用,面臨數據安全的風險。這些問題都對大平臺提出了嚴峻的挑戰。于是,大平臺逐漸往敏捷制造不斷演進,通過全鏈路的數據治理能力,以全局的視角進行管控,并同時實現數據的決策的下放。
l DataWorks全鏈路數據治理新品發布
2021云棲大會全鏈路數據治理峰會,DataWorks在十二年積累的數百項數據開發治理能力之上,重磅發布全鏈路數據治理新品。
數據治理中心
數據治理對于企業的大數據團隊,不單是一個技術問題,更是組織和管理問題。對于整個組織來說,如何來衡量數據治理最終的效果?如何更好地發揮組織的主動性?在一些企業當中,會成立了專門的數據委員會,制定一些數據治理的規范,但是發現平臺并不能很好地支持這些規范,又或者說企業購買了一個數據平臺,但是卻不知道如何通過平臺來完成數據治理的工作。在阿里巴巴內部經常會參考一個健康分的概念,從組織設計上,數據委員會下面有平臺團隊,業務團隊,以及風控、財務等協同團隊。那對于某個業務團隊來說,會制定一個今年的目標比如說把健康分從80分提升為90分,從計算、存儲等方面入手,不單從業務側、生產側開展治理優化工作,有需求也會提給數據平臺團隊,對引擎和數據平臺產品進行優化演進,大家一起朝這個目標努力。組織有了可測量的方式,這些部門就可以把這些數字放到自己的目標里去。同時各類的數據治理戰役,各個團隊的比武等等長效的運營工作,也可以通過健康分做不斷地延展,達到組織數據協同的目的,發揮數據治理組織的主動性。
DataWorks全新發布的數據治理中心,針對企業計算、存儲、研發、質量、安全五個方面形成企業數據治理健康分,以問題驅動的理念,覆蓋事前、事中、事后的全鏈路主動式數據治理和數據治理健康度評估。
企業的數據治理不再一個 “階段性項目”,而是一個“可持續的運營項目”。
智能數據建模
企業建了一個平臺,做了很多規范治理,對于業務人員的價值到底是什么?省了多少成本,治理了多少問題,對于業務人員相對是無感的。業務方只希望更快地拿到想要的數據,于是原先的數據倉庫建設方式更多的是自底向上小步快跑,快速滿足需求為先。而如今的全鏈路數據治理,讓數據倉庫的建設向規范化,可持續發展方向演進,強調面向業務視角自頂向下進行規范建模與面向開發視角自底向上構建數倉雙管齊下。
DataWorks全新發布智能數據建模,沉淀阿里巴巴數據中臺建設方法論,從數倉規劃、數據標準、維度建模、數據指標四個方面,以業務視角對業務的數據業務進行詮釋。智能數據建模支持快速數據建模,包含正向建模與逆向建模,提供分鐘級的模型創建能力。同時打通數據開發,可以直接將數據模型發布到多個引擎,一鍵生成質量規則,直接發布表并自動生成ETL簡代碼。企業的業務人員可以方便地了解數據全貌,快速獲取所需的數據指標以及基于數據模型進行數據分析和探查,企業內所有的員?可以實現“數同?”的快速理解與流通,讓數據決策可以實現真正有效的下放!
盒馬鮮生通過DataWorks智能數據建模落地新零售行業數據模型Rex-LDM
同時,現場還發布了DataWorks數據集成實時同步能力、智能數據查詢、隱私安全計算、DataWorks開放平臺、數據作業遷云工具與遷云專家服務等多項功能。
中國信通院在2021年9月發布的《全球數字經濟白皮書》報道,去年我國的數字經濟規模已經達到5.4萬億美元,占比GDP近1/3。在數字經濟時代,數據已經成為關鍵生產要素,就像在農業經濟時代和工業經濟時代中,土地、勞動力是關鍵的生產要素。DataWorks通過智能數據建模、全域數據集成、高效數據生產、主動數據管理、全面數據安全、快速數據服務六大全鏈路數據治理的能力,承載千行百業數字化轉型的可能。目前,DataWorks已經在數字政府、新金融、新零售、能源、工業、交通、游戲、教育、數字營銷等行業落地數千家客戶。國家電網大數據中心通過DataWorks實現總部+27家省(市)公司PB級數據的統一管理,通過全鏈路數據中臺的治理與監測運營體系,加快電網整體數字化轉型升級。創夢天地基于開源的EMR引擎,用DataWorks替換自研調度系統,讓技術人員更加專注業務,助力游戲行業的數據化運營。億滋中國通過DataWorks智能數據建模進行全鏈路的數據模型治理,極大提升數據中臺的自服務能?,讓企業數據決策實現下放,釋放新零售的數字化力量。
企業數字化轉型正在進入的深水區,“數據懸河”將逐漸成為企業的“達摩克斯之劍”,阿里云正在與各行各業的客戶與合作伙伴一起,通過全鏈路數據治理,管得好數據、用得好數據,讓數據向先進生產力集聚!
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。