deep|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏( 二 )


模拟赛车是一个需要在具有高度真实、复杂物理环境中进行实时、连续控制的领域,GT Sophy 在这种环境下的成功首次表明,在一系列汽车和赛道类型中,有可能训练出比顶尖人类赛车手更好的人工智能代理。
这一结果可以被视为是计算机在国际象棋、围棋、冒险、扑克牌和星际争霸等竞争性任务持续发展的另一个重要步骤。

deep|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏
文章插图
图|GT Sophy 的训练(来源:Nature)
值得注意的是,GT Sophy 在短短几个小时内就学会了绕道而行,并超过了数据集中 95% 的人类选手,它又训练了九天时间,累计驾驶时间超过了 45000 小时,跑圈时间减少了十分之一秒,直到圈速停止改善。
单凭进步奖励还不足以激励AI程序赢得比赛。如果人类对手的速度足够快,AI程序将学会跟随,并在不冒潜在灾难性碰撞风险的情况下尝试积累更多奖励,实现超车。
为了评估 GT Sophy,研究人员在两项赛事中让 GT Sophy 与顶级 GT 车手进行了较量,GT Sophy 在所测试的三条赛道上都取得了超人的计时表现,它能够执行几种类型的转弯,有效地利用漂移,扰乱后面车辆,拦截对手并执行其他紧急操纵。
尽管 GT Sophy 展示了足够的战术技能,但仍有许多方面有待改进,尤其是在战略决策方面。例如,GT Sophy 有时会在同一条跑道上留出足够的空间,让对手有机可乘。

deep|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏
文章插图
图|AI 车手超越人类玩家(来源:Nature)
竞技游戏外更值得关注关于电子竞技、博弈类的游戏,AI 能战胜人类早已经不是什么稀奇事,而且可以肯定的是,AI 还会越来越强,即便是人类顶尖选手也只能甘拜下风,但能赢电子比赛并没有太多悬念和意义,关键还是看这些超越人类的 AI 程序如何切实攻克产业瓶颈,真实造福人类生活。
1996 年 2 月 10 日,超级电脑 Deep Blue 首次挑战国际象棋世界冠军 Kasparov 以 2:4 落败。1997 年 5 月再度挑战,最终Deep Blue 以 3.5:2.5 击败了 Kasparov ,成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统。
但 Deep Blue 的缺陷是没有直觉,不具备真正的“智能灵魂”,只能靠超强的计算能力弥补分析思考方面的缺陷,赢得比赛的 Deep Blue 很快也退役了。

deep|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏
文章插图
2016 年 3 月,谷歌 AI 的 AlphaGo 在四场比赛中击败了围棋世界冠军李世石,被认为是 AI 真正意义上的里程碑,AlphaGo 当时使用了蒙特卡洛树搜索与两个深度神经网络相结合的方法,在这种设计下,电脑可像人类大脑一样自发学习进行分析训练,不断学习提高棋力。
自此之后,各类 AI 程序新秀层出不穷,2018 年 12 月 10 日,DeepMind 针对即时战略游戏星际争霸开发的人工智能 AlphaStar 能完虐全球 99.8% 的人类职业选手。
无疑,现在的 GT Sophy 又是一个 AI 胜利的延续。
来自斯坦福大学机械工程系教授 J.Christian Gerdes 认为,GT Sophy 研究所带来的影响也许能远远超出电子游戏范畴,随着许多公司致力于完善运送货物或乘客的全自动车辆,关于软件中有多少应该使用神经网络,以及有多少应该仅基于物理,值得进一步去探索。
总的来说,在感知和识别周围环境中的物体时,神经网络是无可争议的冠军。然而,轨迹规划仍然是物理和优化领域,GT Sophy 在游戏赛道上的成功表明,神经网络有一天可能会在自动化车辆的软件中发挥比今天更大的作用。
更具挑战性的可能是每圈的变化。真实情况下,赛车的轮胎状况在每圈之间都会发生变化,人类驾驶员必须在整个比赛过程中适应这种变化。GT Sophy 能用更多的数据做同样的事情吗?这些数据从何而来?这将使得人工智能有更多进化空间。
参考资料:
deep|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏】https://www.nature.com/articles/s41586-021-04357-7https://www.nature.com/articles/d41586-022-00304-2