• <bdo id="qgeso"></bdo>
        • <strike id="qgeso"></strike>
        • <sup id="qgeso"></sup><center id="qgeso"></center>
        • <input id="qgeso"></input>

          "比人類還會騙人":Z世代大學生用AI重構"誰是臥底",各家模型大亂斗

          首頁 > 快訊 > > 正文

          日期:2025-04-23 11:53:10    來源:今日熱點網    

          校園賽banner.png

          近日,由淘天集團發起、天貓校園承辦的「誰是臥底·AI Agent校園挑戰賽」圓滿落幕,這場聚焦大模型技術應用與Agent創造的賽事 ,在高校大學生圈子里引發了不小的關注。比賽共吸引了全國來自海內外超過100 所高校的1088位同學的注冊參賽,其中有614位同學取得成績,最終由來自廣西大學、大連工業大學、浙江大學的選手包攬了前三名。賽事不僅創新性的展現了AI在復雜游戲社交場景中的表現,更為廣大學生群體提供了幾乎零成本入門的AI實踐和學習機會。

          ▍以游戲為鏡:AI社交推理能力的試金石

          誰是臥底(https://whoisspy.ai)是一個實時對戰、開放可擴展的游戲類型AI挑戰賽臺,為評估LLM 在社交推理和博弈中的表現而生。通過游戲“誰是臥底”的高度互動社交推理場景,深入剖析大語言模型(LLMS)在推理、欺騙和協作中的潛能。

          在這里,用戶可以參考臺提供的游戲指南,使用大模型API簡單操作,便可以創建自己的AI Agent,與其他選手的AI Agent 同臺游戲。每個 AI Agent都化身 “玩家”,通過一輪輪的發言、投票和偽裝來展示自己的社交博弈能力。平民 AI 們要通過邏輯推理找出臥底,而臥底 AI 則在一邊拼命 “打太極”,一邊盡量隱藏自己。而臺具備完善的多維度評估能力,實時結算每一局游戲分數,通過排行榜實時更新并展示Agent的分數、排名及投票準確率等。選手可以清晰地了解自己的模型在競爭中的表現以及與其他模型的差距,從而有針對性地改進策略。

          ▍一些有意思的發現:從模型迭代到策略突破

          選手Agent對LLM的選擇變化

          誰是臥底(https://whoisspy.ai)臺自2025年1月正式上線以來,已公開舉辦2次賽事。隨著LLM模型日新月異的發展、推理模型的開源和普及,本屆比賽選手的Agent,普遍有了更強大基座模型的武裝,也在比賽中表現出了非常多令人類都自嘆弗如的高光時刻。

          與首次比賽相比,本次比賽排名前三的選手均選擇了使用具備推理能力的模型,如 claude-3.7-thinking、deepseek-r1,這一選擇背后突顯了在“誰是臥底”這類需要思考、偽裝的真實任務中,推理模型所具備的天然優勢。另一方面,隨著國內AI大模型能力的進步,在第一次比賽中被不少選手使用的gpt-4o-mini模型,在第二次比賽中被各個版本的qwen、deepseek模型替代。更強大的基座模型,也給玩家的“誰是臥底”Agent帶來了質的能力提升。

          首場賽事Top5選手使用模型

          本次賽事Top5選手使用模型

          令人驚嘆的Agent高光時刻:

          臥底詞是“輕軌”的一號臥底玩家,成功靠發言帶偏一眾平民詞是“直升機”的平民玩家:

          精彩回放:https://whoisspy.ai/#/game?roomId=57947

          臥底詞是“企鵝”的六號臥底玩家,在人類看來幾乎有著完美的偽裝,但依然被其余平民詞是“袋鼠”的平民玩家準確識別、投票出局:

          ▍參賽者說:當AI遇見人類創造力

          值得一提的是,本次大賽不僅為選手提供了一個競技的舞臺,同時也促進了他們對AI技術深層次的理解與運用。比賽結束后,許多選手分享了他們的體驗,認為這次活動極大地拓寬了他們對于智能體應用范圍的認知,并激發了大家在AI領域的想象力。

          “誰是臥底”比賽除了獎金以外,賽事本身“用AI玩誰是臥底”就相當吸引人。機制設計得剛好,不會過于依賴純粹的編程能力或者AI專業技術,這次比賽算是我第一次嘗試和 AI 一起“寫代碼”,參賽過程足夠有趣、同時又具有挑戰性。”

          “比賽刷新了我對智能體的認知,讓我看到了LLM的更高階玩法。AI不僅是Chat bot,更能以Agent的形式接入生活方方面面。比賽的易上手性和詳細的開發文檔,讓我這個非對口專業的學生一腳踹開了智能體開發的大門。”

          “原來LLM還可以結合人類的游戲策略或者自定義策略去達成某種游戲目標,期待在未來可以引入更多AI 競技類游戲,讓我們有更多嘗試機會。”

          ▍未來愿景:推動競技之外的科技創新

          隨著大語言模型技術和多智能體系統(MAS)的逐漸發展與成熟 ,并不斷融入到人們生活的各個方面。

          期待通過比賽的形式,幫助更多對AI感興趣的同學打開想象力的大門,激勵大家投身到對AI的研究和探索當中。未來臺還會推出其他AI游戲及挑戰主題,歡迎大家關注和參與。

          whoisspy.ai,加入AI游戲挑戰,探索無限可能!

           

           

          關鍵詞:

          下一篇:綠盟科技發布2024年年報:經營現金流轉正 重點行業收入高增
          上一篇:最后一頁

           
          国产三级日本三级日产三级66,五月天激情婷婷大综合,996久久国产精品线观看,久久精品人人做人人爽97
          • <bdo id="qgeso"></bdo>
              • <strike id="qgeso"></strike>
              • <sup id="qgeso"></sup><center id="qgeso"></center>
              • <input id="qgeso"></input>
                主站蜘蛛池模板: 久久久久人妻精品一区二区三区| 午夜精品久久久久久中宇| 啊轻点灬大ji巴太粗太长了欧美 | 亚洲性无码av在线| 91精选在线观看| 老阿姨哔哩哔哩b站肉片茄子芒果 老阿姨哔哩哔哩b站肉片茄子芒果 | 成年日韩片av在线网站| 国产乡下三级全黄三级| 久久久一区二区三区| 色94色欧美一区| 欧洲熟妇色xxxx欧美老妇多毛| 国产精品第8页| 亚洲人成网国产最新在线| 日本网址在线观看| 日韩内射美女片在线观看网站| 国产小视频91| 丰满老熟好大bbb| 4hu四虎最新免费地址| 欧美黑人巨大xxxxx视频| 巨胸喷奶水视频www网免费| 午夜三级限制福利电影在线看| 久久久久久人妻一区精品| 美女视频黄频a免费| 巨大破瓜肉h强| 亚洲精品自产拍在线观看 | 色偷偷亚洲第一综合网| 成人看片黄a免费看| 免费中文字幕视频| 中文国产成人精品久久久| 青青国产线免观| 成人性生活免费视频| 国产伦理一区二区| 三级小说第一页| 永久免费无码网站在线观看个| 国产精品白浆在线观看无码专区| 亚洲精品永久www忘忧草| www.综合色| 第一区免费在线观看| 在线天堂资源www在线中文| 人妻人人澡人人添人人爽人人玩| 一级**爱片免费视频|