11月12日,由成都市經信局市新經濟委主辦,雨前顧問承辦的2024人工智能產業CEO大會暨人工智能賦能新型工業化供需對接活動在成都舉行。
大會上,清華大學教授、人工智能研究院視覺智能研究中心主任鄧志東以“AI源動力·解析產業發展新趨勢”為題進行了精彩的演講,其中特別對如何聚焦大模型應用、發展具身智能面臨的挑戰以及L4自動駕駛與通用人形機器人的協同演進等,闡述了自己的思考。
鄧志東強調,大模型的價值在于其實際應用。大模型只有在多樣化的實際應用場景中賦能智能經濟與智能社會的發展,才能找到真正的產業價值,也才能成就大模型自身性能的迭代演進。在大模型與智能體的應用及落地過程中,我國在應用場景多樣性、應用落地速度、數據的豐富程度以及商業模式構建上的優勢,才會充分體現出來,形成可持續發展的大模型新應用、新業態、新模式,以此重建我們在AI大模型時代下的新優勢。
鄧志東還認為,生成式人工智能正從數字領域拓展至真實物理世界,賦能智能制造、自動駕駛、人形機器人、智能座艙、無人機、個人電腦及手機等物理系統,強力推動制造業與實體經濟的發展。
以下為鄧志東演講精華版:
一、聚焦大模型應用,形成中國人工智能發展新優勢
人工智能的發展路徑經歷了從單模態的文本大型語言模型,迭代到如今快速發展的多模態大型語言模型,再到多模態的具身智能,這里的具身是指增加了移動與操作等動作能力。最后會進一步發展到交互式的通用人工智能,增加與世界的交互。在這個發展路徑中,最重要的問題是要通過大模型的實際應用來發展。
大模型的價值在于其實際應用。只有通過多樣化的應用場景,賦能智能經濟與智能社會的發展,才能找到大模型真正的產業價值,同時也才能成就大模型自身的迭代演進。生成式人工智能目前正在從數字空間或互聯網空間走向真實的物理世界,賦能包括智能制造、自動駕駛、人形機器人、智能座艙、無人機、個人電腦、手機等在內的真實物理系統,從聊天問答等互聯網空間的任務走到真實的世界里,可以助力制造業與實體經濟的發展。
大模型應用有三條較為現實的實現路徑。一是大模型的應用需要不斷提升基座大型語言模型,特別是多模態通用大語言模型的能力上限,同時聚焦行業原生多模態大模型的發展,實現原始創新。但這需要巨頭企業的長期持續投入,原因是基礎與通用大模型需要超大規模的數據和算力支撐。
二是大模型的應用需要特別關注利用現有的高性能多模態通用大型語言模型進行微調。通過不斷的微調和產業部署,用較小的AI算力,構建針對特定任務的專用模型,從而解決成千上萬種不同類型的任務。人工智能的核心在于完成一個個從簡單到復雜的具體任務。因此,我們需要選擇合適的高性能多模態通用大型語言模型,并掌握各種高效的微調方法。具體而言,微調方法包括監督微調(SFT)、人類反饋強化學習(RLHF)和AI反饋強化學習(RLAI)等,也根據范式的不同,一般分為提示微調和參數微調兩大類。我們需要根據不同的任務挑戰性,選擇合適的高效微調方法。
三是大模型的應用需要聚焦智能體新技術新范式新導向的發展。例如,通過積極的創新實踐和產業落地,利用性能先進的原生多模態通用大模型,探索智能體一體化端到端的新范式,比如自動駕駛、通用人形機器人,就在不斷創新實踐這些新范式,也必將進一步增強制造業的競爭能力。
通過這些路徑,推動人工智能賦能新型工業化,形成新應用、新業態、新優勢。大模型應用既需要頭部企業直接發展行業原生多模態大語言模型,形成基礎能力,同時更需要眾多制造企業或中小型創新企業,面向垂域或特定任務,基于現有的多模態通用大模型微調訓練出專用模型,大力推動千行百業垂域專用模型的產業落地,從而通過場景應用創新與產品研發,打造國際一流的大模型應用生態,賦能智能制造與新型工業化的發展。
在大模型的應用落地過程中,我國在應用場景多樣性、應用落地速度、數據的豐富程度以及商業模式構建上的優勢,才會充分體現出來,形成可持續發展的大模型新應用、新業態、新模式,以此重建我們在AI大模型時代下的新優勢。
從更大尺度上看,人工智能可分成弱人工智能-通用人工智能-強人工智能-超級人工智能等不同的演化階段,目前我們正處于通用人工智能的早期階段,全球范圍的大模型應用,一切才剛剛開始!
二、挑戰與機遇:賦能智能制造的具身智能體
聚焦具身智能發展面臨的挑戰,尤其是如何通過具身智能賦能智能制造,我想在這里分享一下我的看法。
首先是實現路徑的選擇。具身智能的實現路徑已經從單純的感知空間或觀察空間,進一步延伸到了動作空間,尤其是感知空間與動作空間之間的相互關系和相互作用。這就涉及到從感知空間到動作空間的決策推理能力,涉及到所謂的單段式一體化具身智能體研發范式。
具體來說,通過對兩大空間、三大任務的模型微調,可賦予具身智能體聽、說等感知與理解能力,決策推理能力以及移動與操作能力。換句話說,首先要進行具身的理解,然后進行具身的推理,最后進行具身的動作生成。有了這三大微調模型,可以進一步生成更多的下游微調模型。顯然這里的核心能力是決策或邏輯推理能力。微調的訓練方法需要選擇合適的技術路線,主要包括監督微調(SFT)、人類反饋強化學習(RLHF)和人工智能大模型反饋學習(RLAI)。此外,根據不同的范式,高效微調方法一般分為提示微調和參數微調兩大類。提示微調既有以自然語言方式進行的,如思維鏈(CoT),也有在連續隱含空間基于學習方式進行的,而參數微調則對模型的全部或部分參數進行微小調整,目前研究更多更深入。
其次是物理AI面臨的技術挑戰。大模型在實際應用中可能會遇到一些技術難題。具身智能在完成任務時,不僅有成功率的問題,還會出現幻覺現象。這包括事實性幻覺和上下文不一致幻覺。事實性幻覺?是指大模型生成的內容不符合常識,甚至捏造信息;上下文不一致幻覺是指大模型生成的回復或下文與用戶上文的指令不一致,也就是答非所問。
對于具身智能而言,這些幻覺可能會導致時空錯亂,特別是在自動駕駛和人形機器人等實際應用場景中,可能會給用戶帶來安全風險。目前這一領域正迎來新的發展,各種方法層出不窮。但大模型的幻覺或許只能緩解,不能說已經完全消滅了。
為了緩解幻覺問題,可以采取以下三種措施:一是提高訓練數據的質量?。在預訓練和微調階段通過數據清洗和篩選,確保數據的準確性和一致性,但制造業中高質量訓練數據的采集效率,是一個較大的技術挑戰。二是引入糾錯機制?。在大模型的生成過程中需要加入糾錯機制,以防止錯誤信息的傳播與積累。三是優化模型結構?。通過不斷改進模型結構,使其能夠更好地處理各種復雜任務和多種輸入類型?。
最后是改變研發范式的新機遇。我們看到了具身智能體在新范式和新導向方面的一些重要機遇。第一個機遇是從視覺-(文本)語言模型(VLM)發展到視覺-語言-動作模型(VLA)。傳統的VLM主要依賴視覺和文本語言,而現在的VLA不僅增添了深度視覺和語音能力,還增加了動作能力,也就是從感知空間或觀察空間延伸到了動作空間。這種擴展使模型能夠真正基于高級的決策推理,從而更好地賦能落地應用與產業發展。具體來說,智能體的輸入端包括一幀一幀的圖像和(文本)任務要求;輸出端則是各種動作。例如在自動駕駛中,輸入是圖像幀與本體感知,而大模型與智能體可以直接生成方向盤的轉角、油門的開度和剎車的制動量。這些都特別像人類的大腦跟小腦的關系,所以也稱之為大腦模型與小腦模型。這里大腦皮層模型負責視覺與體感處理,擁有類似人類的視覺通路和本體感知。本體感知是指智能體對自己狀態的感知,包括導航信息等。通過視覺與本體感知獲取多模態信息后,智能體會在前額葉進行決策推理,然后將決策結果輸入到運動皮層,運動皮層再將信號傳遞給小腦模型。小腦模型負責維持具身智能體的精細平衡和協調,對應于我們這里的動作空間。
第二個機遇是從多段式方法向單段式方法的轉變。傳統的多段式方法將感知、預測、決策、規劃和控制人為地分段處理,以此構成多個閉環。然而,最新的發展范式不再采用人為分段的方式,而是采用單段式方法,就像人的大腦一樣,一個大腦可以解決所有問題,最多與小腦合體,成為一個一體化的單一模型。這種最新的智能體范式被稱為自動駕駛2.0,其特點是引入了基于學習的決策與規劃。
三、產業發展新趨勢:L4自動駕駛與通用人形機器人的協同演進
人工智能產業的發展新趨勢在于通用與泛化,這是所有具身智能體追求的最高目標。“通用”意味著能夠應對各種環境與任務的變化,而不是局限于固定的操作對象與某一特定任務。人是這方面的最高標桿。泛化則指跨場景、跨領域的廣泛應用,能夠在任何環境中適應和可靠運作。本質上這是一個什么問題呢?其實就是一個環境的適應性和自主性問題,也就是什么樣的環境都可以自主適應。時空大變化之后,如何提高智能體的復雜邏輯推理能力是當前研究的重點。這里需要研究各種增強技術,如提示增強、檢索增強(RAG)、知識增強和邏輯增強技術等,以提升多模態大模型與智能體的性能。
通用人形機器人與L4自動駕駛是典型的具身智能代表,二者可以相互協同演進。我們看到像Cybercab(特斯拉無人駕駛出租車)與Optimus(特斯拉人形機器人)的問世,至少表明了目前最新發展的這種單段式的或者叫單模型的端到端的自動駕駛技術在真實世界的成功實踐,證明了這條路徑是可以走得通的。未來能夠完全進行大規模產業落地,我相信只是一個時間的問題。
首先是高級別的自動駕駛的規模化落地應用,即大模型+自動駕駛。采用徹底的端到端解決方案,基于視覺大模型VLA,通過少量編程,實現類似人類的駕駛技巧學習。其次是高級別自動駕駛的降維應用,也就是大模型+通用機器人。把大語言模型帶入通用人形機器人,必將加速通用人形機器人的大發展,后者的產業化應用,也會反過來助推L4自動駕駛的技術進步。更多的人形機器人會首先走向制造業的生產線,實現無人化的自動化車間與工廠,即所謂的“黑燈工廠”,也就是可實現完全無人化生產的工廠。另外自動駕駛的大規模商業化落地,可望推動人形機器人的加速發展,催生人類-機器人共融社會的形成與演進,為未來智能生產與智能生活的發展,構建出新的無限可能。
總之,應該說我們現在的大模型應用其實做的事情就是在模仿學習。模仿人類,把人類所有寫的小說、產生的圖像都作為一個標桿來模仿,模仿以后進行所謂的強化學習。長上眼睛了,長上耳朵了,有了手,有了腳,就可以進入到生產與生活的實踐角色之中。進入這些社會角色后,通過與環境、與其他智能體和與人類進行交互式學習,就可以催生出超強的交互式多模態智能體,就可能產生出“青出于藍而勝于藍”這么一個效果。基本上我們現在看人工智能的發展,這個路徑就是在模仿學習的基礎之上,利用深度強化學習等交互式學習方法,在虛實平行世界中實現更高效率的自主探索學習,獲得接近或對齊人類智能的能力,從而實現人-機共融,賦能智能經濟與智能社會的大發展。
關鍵詞: