首頁|時政|熱點|法治|社會|城事|三農|房產|汽車|旅游|美食|教育|衛生|商業|財經|文化|娛樂|歷史|收藏|公示公告|網絡電視|網絡問政|手機廣視網
參政議政點擊進入
您當前所在位置:駐馬店廣視網>財經> 正文
分 享 至 手 機

劍指多人奪旗游戲,曾經挑戰圍棋之巔的Deepmind團魂燃燒了

時間:2019-06-18 16:17:19來源:界面點擊量:19467

作者   邢逸帆

很多人小時候都玩過的抓人、搶凳子游戲,在現在一些西方小朋友記憶里,可能會被替換成奪旗游戲。

奪旗游戲的規則為,對壘雙方需要在保護自己陣營里旗子的同時,奪取藏在對方陣營里的敵旗帶回自己的基地,而玩家一旦在搶旗過程中被敵人抓到,就會出局。

▲奪旗游戲規則,會跑就能玩

對于人類小孩來說,這種目標明確的合作類游戲非常容易掌握,但AI卻會因為游戲規則過于簡單、自由度過高、合作人數太多而陷入深深的迷惑。

▲唉呀摔倒了

通過端到端的強化學習,AI已經能在單挑中戰勝圍棋世界冠軍、打敗頂級《星際爭霸》玩家。但在多人組隊競爭游戲中,由于可能出現的情況過于復雜,對于AI而言,在學習難度上,5歲小孩都會玩的奪旗還真的比圍棋高出不少。

最近,工程師們終于教會了AI 奪旗。

上月底,DeepMind在Science上發表了論文《基于人口強化學習的AI在3D多人游戲中達到人類水平》(Human-level Performance In 3D Multiplayer Games With Population-based Reinforcement Learning),介紹了一種能讓AI自己學會奪旗,并制定團隊策略的模型。

DeepMind研究員、論文第一作者Max Jaderberg表示:“在訓練過程中沒有人告訴AI如何玩這款游戲——只有在勝利或失敗后才知道AI是否了解怎么玩游戲。”

在最終測試中,這個名叫FTW(For The Win)的奪旗AI取得了比人類更好的表現。在2個人類對抗2個AI的比賽中,AI組平均每局比人類多拿16個旗。在兩位人類專業選手開黑的情況下,人類對AI的勝率才勉強提到了25%(6%平局)。

FTW以壓倒性的優勢勝出。

▲DeepMind測試員苦戰中

終于,連團隊合作也不是人類的專利了。

《雷神之錘3:競技場》奪旗大戰

DeepMind用來訓練FTW的“斗獸場”,是大受歡迎的第一人稱射擊游戲《雷神之錘3:競技場》中的奪旗模式。

▲MineCraft 重現的《雷神之錘》奪旗地圖

在奪旗模式中,紅藍雙方在隨機生成的對稱地圖中比賽,五分鐘內誰搶到的旗子最多誰就贏。旗子位于地圖兩端的基地,雙方基地被標記為不同顏色。

在奪旗過程中,除了追逐和躲避,玩家還可以用激光“點殺”扛旗的對手。點到對手后,旗子會被回收,對手幾秒后會在自家基地里重生。

在以往的訓練過程中,工程師們往往會幫助AI“作弊”——讓AI訪問環境模型、其他玩家或智能體的先驗狀態。比如在DeepMind與暴雪合作訓練的《星際爭霸2》智能體AlphaStar眼里,游戲就是被拆解好的各種特征層。

▲AlphaStar 眼中的《星際2》

而在訓練FTW時,AI沒有開啟上帝視角,只能通過觀察和移動與環境和其他智能體交互。FTW可以前后左右移動,通過左右旋轉掃視周圍環境,獲得的輸入信息只有第一人稱視角畫面,和正常玩家完全一樣。

▲FTW 眼中的地圖

為了給提供足夠多的隊友和敵人,工程師在地圖里投放了30個智能體進行“大混戰”。

為了防止智能體記憶地圖,每次的場地也是隨機生成的。

就像學生學習有快有慢一樣,30個智能體的水平和偏好也參差不齊。在下圖底部,每一個圓圈都代表一個智能體,圓圈內部的深色面積越大,則該智能體越強。在訓練過程中,智能的計算策略也在不停地進化和變異。

幾千局游戲后,每個智能體都建立了各自的獎勵信號和小目標,有的決定去拔掉旗子,有的決定專門搶人頭,真正做到了分工明確。

FTW自學成才

據論文描述,在計算公式中,有幾個重要的參數。第一是智能體“看”到的第一人稱視圖像素,以RGB數值輸入;第二是游戲中的得分,直接在得分板上顯示;第三是AI采取的行動路徑(左轉右轉或前進后退)。而智能體的最終目的,是找出一種使積累獎勵值最大化的策略。

在訓練時產生的數據分別被傳遞到兩個循環神經網絡,一個快,一個慢。快速神經網絡處理和預測時間序列中不斷發生的事件,慢速神經網絡則對于養成行為策略有監督作用,兩者在最后相互耦合,共同輸出游戲行為。

此前,多人游戲中的智能體常常采用“左右互搏”的方式來自我進化,但這樣訓練出的智能體在團隊合作中表現很不穩定。舉個例子,在某些情況下AI會變成人工智障,在游戲剛開始時就有10個AI沖出去搶旗。

對此,DeepMind提出的解決方案是,并行訓練多個不同的智能體集群相互配合,并基于比賽結果優化內部獎勵系數。

通過個體和團隊訓練的雙層流程,智能體確立了復雜的獎勵機制——最大化自我獎勵的內部目標,和達成奪旗目的的外部目標。就像一個團隊里有負責支援的角色,也有沖鋒陷陣贏得鮮花榮耀的角色,而在FTW的獎勵機制里,它們都是MVP。

請停止你的AI行為!

在這種訓練框架下,FTW出現了很有意思的進化。

隨著訓練的進行,FTW有了自家基地的概念,然后認清了對方基地在哪,最后對旗幟的形狀和位置有了反應。在發現可以“點殺”敵人之后,FTW立即更新了自己的行動。而此前,工程師從未有針對性地培訓過智能體進行這些行為(對比AlphaStar,曾將游戲任務拆分成多模塊分別進行強化學習)。這些結果表明,純粹通過強化學習的訓練,FTW自發產生了和游戲規則相關的概念。

▲一開始混亂的行為漸漸有序

據論文中說明,在進行游戲時FTW會自行分析將近200多個影響最終決策的問題,其中包括:我手上有旗幟嗎?我最近見到過我的隊友嗎?我能很快到達敵方基地嗎?

通過比較這些問題的答案和得分情況,FTW自行生成了能提高勝率的策略。

比如,在一名隊友運送旗幟期間,會有另一名隊員埋伏在敵方基地,因為FTW知道一旦運旗的隊友被擊殺,敵方旗幟馬上會刷新,早就埋伏好的隊員就可以立刻撿起來。

▲FTW做出決策時被各個條件激活的區域

此外,在訓練過程中,FTW曾經追著搶到旗的隊友跑,后期發現這種策略對勝率無益,遂舍棄。在游戲快要結束時,FTW更傾向于在自家基地門口防守,以防止對方縮小比分差距,而在游戲前期則傾向于進攻。

在最終的測試中,DeepMind團隊發現FTW能以16分的平均優勢擊敗由兩名人類玩家組成的團隊。即使是開黑的專業玩家,在FTW面前的也勝率只有25%。

為了確保游戲公平,工程師給FTW加上了267毫秒的反應延遲,結果FTW的勝率降低了,但仍高于人類。

未來的AI會進化出個性嗎?

DeepMind這篇論文證明,即使沒人教,沒有上帝視角,甚至連基本游戲概念都沒有,放養的AI也能在多智能體環境中學會競爭和合作,甚至出現和高級團隊策略。

此外,每個智能體都進化出了各自的“小目標”,達成自己設定的目標就會獲得獎勵。就好像每個AI都在小時候寫了一篇《我的理想》,無論是防守還是進攻,它們都有光明的前途。

也許在不久的將來,我們不僅能在游戲中遇到行動和人類類似的NPC,把單機游戲玩出聯機感,還能養成一只有“個性”有理想的AI。

想想還有點小激動!

免責聲明:凡本網注明“來源:XXX(非駐馬店廣視網、駐馬店融媒、駐馬店網絡問政、掌上駐馬店、駐馬店頭條、駐馬店廣播電視臺)”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,作品版權歸原作者所有,如有侵犯您的原創版權請告知,我們將盡快刪除相關內容。凡是本網原創的作品,拒絕任何不保留版權的轉載,如需轉載請標注來源并添加本文鏈接:http://www.etfuui.tw/showinfo-104-239474-0.html,否則承擔相應法律后果。

責任編輯 / 劉釗
審核 / 平筠
終審 / 張凱旋
上一篇 : 顯卡挖礦江湖
六合图库助手下载