
電競資訊10月05日稱 據(jù) decoder 今天報道,騰訊研究人員最近用《王者榮耀》游戲作為訓練平臺,探索如何讓 AI 在游戲中學會“戰(zhàn)略性思考”,研究全新 TiG(Think in Games)框架,相關成果已發(fā)表于 Hugging Face 網(wǎng)站和 arXiv 平臺。

研究團隊指出,目前的 AI 模型存在明顯的功能鴻溝,以游戲為取向的 AI 能正常游玩但無法理解自己所做的決策,而語言模型雖然可以推理策略,但很難真正執(zhí)行操作,為此他們研發(fā)了全新 TiG 框架,讓模型在游戲中同步思考、行動。
團隊選擇以《王者榮耀》游戲作為訓練范本,先使用匿名且標準化的賽事數(shù)據(jù)定義推上路、擊殺暴君、守家等 40 種宏觀行動,勝負回數(shù)均衡,AI 模型們必須要在每個定義好的場景下選擇最佳策略,并解釋其戰(zhàn)略緣由。
具體來說,訓練分為兩個階段,首先是在監(jiān)督中學習,弄清楚這些策略的基本機制;隨后通過獎勵機制進行強化學習,如果行動正確能得 1 分,錯誤行動則得 0 分。
隨后團隊測試了多種語言模型,涵蓋 Qwen2.5(7B、14B、32B)、Qwen3-14B 模型,并使用 DeepSeek-R1 大模型作為對照組;先從 DeepSeek-R1 提煉高質(zhì)量訓練數(shù)據(jù),然后使用群體相對策略優(yōu)化(GRPO)技術,比較不同策略之間的優(yōu)劣。
最終經(jīng)過 TiG 框架訓練的模型不僅能制定行動計劃,還能解釋原因,例如 AI 會指出某個防御塔防守薄弱,是理想的進攻目標,但需要注意埋伏的敵人。模型訓練后仍保持原有的文本理解、數(shù)學推理與問答能力。
 還有高手狼密大喊:12號是誰啊&華子:我也想知道!正主轉發(fā)!
還有高手狼密大喊:12號是誰啊&華子:我也想知道!正主轉發(fā)!
籃球資訊10月30日宣 NBA常規(guī)賽,湖人客場116-115絕殺森林狼。比賽中,有森林狼球迷在場內(nèi)大喊:“12號到底是誰??!...
2025-10-30 隊記談楊瀚森吃夜宵:NBA幾乎沒人賽后加練科比也和隊友外出吃飯
隊記談楊瀚森吃夜宵:NBA幾乎沒人賽后加練科比也和隊友外出吃飯
籃球資訊10月30日宣 開拓者隊記喬-弗里曼今日接受了國內(nèi)記者的采訪,期間談到了楊瀚森吃宵夜被廣大網(wǎng)友批評的...
2025-10-30 約基奇:不喜歡別人用“毫不費力”來形容我的比賽我很努力的
約基奇:不喜歡別人用“毫不費力”來形容我的比賽我很努力的
籃球資訊10月30日宣 NBA常規(guī)賽,掘金122-88狂勝鵜鶘,約基奇賽后接受了媒體采訪。約基奇表示自己并不喜歡別人用...
2025-10-30 貝爾:火箭迫切需要??怂惯@樣的控衛(wèi)但這種交易不太可能發(fā)生
貝爾:火箭迫切需要??怂惯@樣的控衛(wèi)但這種交易不太可能發(fā)生
籃球資訊10月30日宣 近日,前NBA球員拉加-貝爾在《Real Ones》節(jié)目中談到了??怂?。貝爾表示:“我知道薪水角度...
2025-10-30 濟南時報:山東可能先引進3名外援第4外援由教練組根據(jù)情況調(diào)整
濟南時報:山東可能先引進3名外援第4外援由教練組根據(jù)情況調(diào)整
山東高速男籃第三外援有消息了,基本鎖定高個得分后衛(wèi)珀塞爾。10月30日,新黃河記者從相關方面獲悉,山東高速男籃...
2025-10-30