科技日報記者 華凌
北京2022年冬奧會和冬殘奧會首次在中國舉辦,我國廣大聽障人群也期待著深入了解比賽資訊,全面感受這場精彩卓越的奧運盛會。
全國第二次殘疾人抽樣調(diào)查數(shù)據(jù)顯示,中國有超過2700萬名殘疾性聽力障礙人士。為了讓殘疾人朋友也可以更好地感受冬奧盛況,2月3日,由北京市科委立項實施的“冬奧手語播報數(shù)字人系統(tǒng)”正式上線,在北京冬奧會期間將在北京廣播電視臺新聞節(jié)目中投入使用,服務廣大聽障人士。
“冬奧手語播報數(shù)字人的應用展現(xiàn)我們‘讓機器像人一樣思考’的愿景。不僅使聽障人士能快捷獲取冬奧賽事資訊,還將無障礙環(huán)境理念傳遞到數(shù)億人群。”2月4日,智譜AI CTO張鵬在接受科技日報記者采訪時介紹。
據(jù)了解,本次亮相的“冬奧手語播報數(shù)字人”由北京市科委、中關村管委會科技冬奧專班委托智譜AI、凌云光和北京廣播電視臺聯(lián)合打造,還得到北京市殘疾人聯(lián)合會和市殘聯(lián)聾人協(xié)會的大力支持。
張鵬表示,這個系統(tǒng)基于“悟道2.0”超大智能模型進行研發(fā),由北京智源人工智能研究院牽頭研發(fā)的“悟道2.0”旨在打造數(shù)據(jù)和知識雙輪驅(qū)動的認知智能,實現(xiàn)超越圖靈測試的機器認知能力。“悟道2.0”模型的參數(shù)規(guī)模達到1.75萬億,是GPT-3的10倍,是目前中國首個、全球最大的萬億級模型。由此,系統(tǒng)可自主搭建多模態(tài)肢體動作、表情、手指同步采集系統(tǒng),運用跨模態(tài)擬人生成算法、超高精度寫實數(shù)字人等行業(yè)領先技術,實現(xiàn)冬奧期間賽事新聞的實時專業(yè)手語翻譯播報。
隨著2018年《國家通用手語常用詞表》和《國家通用盲文方案》作為語言文字規(guī)范正式發(fā)布,為了推廣和普及國家通用手語,“冬奧手語播報數(shù)字人”系統(tǒng)完成了《國家通用手語詞典》收錄的8214條通用手語的采集和錄制,并且語法都以聽障群體習慣打法為準,以確保手語播報成果的準確性和專業(yè)度,更好地服務聽障人群。
由于當前國內(nèi)缺少較完善的手語語料數(shù)據(jù),研發(fā)人員在北京市殘疾人聯(lián)合會和市殘聯(lián)聾人協(xié)會的支持下,邀請超過40余位聾人老師及手語專家進行手語文本轉(zhuǎn)寫和技術指導,并進行大范圍聽障群體評測,最終構建了符合國家通用手語規(guī)范的國內(nèi)最大規(guī)模多模態(tài)手語語料庫,詞匯及語句總規(guī)模超10萬。
為構建能夠理解、翻譯語音和手語的智能數(shù)字大腦,科研人員以超大規(guī)模預訓練模型為“冬奧手語播報數(shù)字人”系統(tǒng)的核心技術,通過語義蒸餾及手語翻譯快編模型,實現(xiàn)新聞播報語音實時蒸餾成語義高度接近的手語文字,并翻譯成符合手語習慣的語序。最終,手語數(shù)字腦可以通過計算機模仿聽障人士的大腦,進行實時手語播報驅(qū)動。
研發(fā)團隊還自主搭建多模態(tài)肢體動作、表情、手指同步采集系統(tǒng),實現(xiàn)高精度、高自然度的人物形象和手語動作姿態(tài)。通過采集多模態(tài)動作捕捉數(shù)據(jù),運用跨模態(tài)擬人生成算法對超寫實數(shù)字人進行自然、流暢的實時驅(qū)動和渲染,實現(xiàn)對文本內(nèi)容的實時手語播報。其中,通過肌肉綁定技術驅(qū)動實現(xiàn)面部采集,結合業(yè)內(nèi)領先的語音識別及高清視頻合成等技術,呈現(xiàn)給聽障人群親切自然的冬奧手語播報服務。
張鵬說,手語播報數(shù)字人的應用場景廣泛,一方面可以為新聞媒體提供全流程智能化的數(shù)字人手語生成服務,方便聽障人士快速了解新聞簡訊;另一方面可將聲音廣播內(nèi)容轉(zhuǎn)化為手語,為聽障人士播報冬奧會賽事賽情、賽場成績,便于獲取即時信息。
目前,“冬奧手語播報數(shù)字人”在北京冬奧會期間正式投入應用,不僅能為聽障人士提供手語信息播報服務,降低冬奧運營成本,還便捷了聽障人士收看賽事專題報道,提升他們的社會參與度和幸福感。
此外,“中國地方手語不統(tǒng)一,手語播報數(shù)字人的推廣可加速國家通用手語推廣落地,推動國家通用手語標準普及,為殘疾人平等參與社會生活創(chuàng)造無障礙環(huán)境,讓科技更有溫度。更重要的是,它體現(xiàn)了北京這座城市對殘疾人群體的尊重,實現(xiàn)科技和人文的完美結合。”張鵬表示。
(文中圖片均由受訪者提供)