新智元报道
编辑:定慧
【新智元导读】UCSD等推出Lmgame Bench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。
谁能想到,作为童年回忆的宝可梦,现在竟摇身一变,成了大模型的试金石!
在无数人的童年记忆中,《宝可梦》是一款意义非凡的游戏——简单的操作哪怕是年纪尚小的孩子也能轻松上手。
然而,要真正通关这款游戏,仍然需要缜密的规划和大量的时间投入。
如今,这款承载童年回忆的游戏,已悄然成为各大科技公司测试最新LLM的「香饽饽」。
从Anthropic到Google,从Claude到Gemini,各家模型纷纷亮出「通关宝可梦」的战绩作为展示推理、规划与长期记忆能力的证据。
而且通关后,谷歌的CEO劈柴都要亲自发帖来庆祝。
真的令人好奇,都2025年了,为何AI通关《宝可梦》就成了个大新闻?
更何况,宝可梦最早的发售是1995年,30年前的游戏为何成为了检验最新AI顶级模型的试金石?
这是因为最先进的AI也不一定拥有人类幼儿的感知和行动能力。
莫拉维克悖论
在LLM还未出现的1980年代,早期的人工智能似乎已经开始展现「智慧」。
人工智能的先驱汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人发现一个悖论。
要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。
语言学家和认知科学家史迪芬·平克认为这是人工智能学者的最重要发现。经过35年人工智能的研究,他发现最重要的课题是:
困难的问题是易解的,简单的问题是难解的。
四岁小孩具有的本能——辨识人脸、举起铅笔、在房间内走动、回答问题——事实上却是工程领域内目前为止最难解的问题。
当新一代的AI出现后,股票分析师、石化工程师都要小心他们的位置被取代,但是园丁、接待员和厨师至少十年内都不用担心被人工智能所取代。
这也是目前所有顶级模型都希望通过宝可梦游戏证明的——目前的LLM到底有没有感知能力?
Claude Opus 4还在直播玩宝可梦,已经继续了12万+步
宝可梦作为评测基准,合理吗?
宝可梦被越来越多地用于评估现代大型语言模型,但存在一个很大的问题——目前的挑战都缺乏标准化。
Anthropic为Cladue模型提供了导航和读取游戏状态内存的工具。
该模型进行了几场道馆对战,大约执行了35,000个游戏内动作才到达电系道馆首领。
但Anthropic并未详细说明什么具体算作一个「动作」,也未说明允许多少次重试。
Google的Gemini 2.5 Pro已经完成了《宝可梦 蓝》(并在《宝可梦 红》中获得了第五个徽章)。
然而,它依赖额外的外部代码来提取更全面的游戏状态文本表示并指导决策。
并且运行完成游戏需要大量的时间,仅获得第五个徽章,就需要超过500个小时。
同时API的使用会产生大量费用。
如何才能将大模型最爱玩的《宝可梦》游戏转化为标准化评估框架,甚至是多种游戏的评估框架?
这就是今天介绍的Lmgame Bench,它精心选取了一批难度适中的游戏,并提供了分层测试机制,更适合衡量大模型的真实能力。
博客地址:https://lmgame.org/#/blog/pokemon_red
该测试基准由UCSD等重磅出品,研究了如何使用流行的视频游戏来评估现代LLM。
论文地址:https://arxiv.org/pdf/2505.15146
Lmgame基准测试
Lmgame Bench使用模块化测试框架——如感知、记忆和推理模块——系统地扩展模型的游戏能力。
这些测试框架使模型能够通过迭代交互循环与模拟游戏环境进行交互。
Lmgame-Bench采用了一种标准化的提示优化技术,以降低对提示的敏感性。
为了在没有任何外部定制游戏「脚手架」的情况下区分模型能力,Lmgame Bench精选了一系列中等难度的视频游戏。
这些游戏包括:
推箱子:得分计算方式为所有关卡中推到目标位置的箱子总数,统计范围从非常简单的关卡一直到Sokoban 1989中最难的关卡,直到出现第一个死局为止。
超级马里奥兄弟:分数是马里奥在所有关卡中累计的横向移动距离(游戏单位),直到失去全部三条生命或完成最终关卡为止。具备更强物理直觉和空间推理能力的模型通常能够获得更高的分数。
俄罗斯方块:分数是已注册的总方块数加上消除的总行数(乘以10倍系数),计算至游戏结束为止。不同的模型持续游戏的时间各不相同,这取决于它们高效处理下落方块的能力。例如,o3-pro能够有效清除超过10行,从而持续保持游戏进行。
2048:合并方块值的总和(例如,合并两个2会获得+4),记录直到棋盘停滞(连续十次回合没有合并或改变棋盘的移动)。然后我们会报告它们的总得分。由于游戏可以持续超过10万步,这为区分模型在较长时间范围内的能力提供了强有力的依据。
糖果消除:在固定的50步会话中消除的糖果总数。尽管游戏相对简单,但它能有效区分模型在优化移动步骤和清除糖果方面的能力。
逆转裁判:在所有案件关卡中正确操作(提交证据、对话选择等)的总次数,直到用尽五次错误决定机会(生命值)。此游戏用于评估模型的上下文理解和推理能力。
模块设计
许多模型在视觉理解上存在脆弱性,导致对游戏状态频繁误判。
想要在游戏中取得成功,需要有效的记忆机制来实现长期决策。
Lmgame针对性的开发了三大模块。
感知模块:将原始游戏帧或UI元素转换为结构化的符号/文本状态描述,减少对脆弱视觉的依赖。
内存模块:存储最近的状态、动作和反思笔记,以缩小动作空间并支持长期规划。
推理模块:综合所有其他模块的信息,并可选地开启长链式思维推理。
o3玩2048的记忆模块展示
Gym风格标准接口
不过研究人员发现,使用计算机直接操作智能体进行基准测试存在重大缺陷。
每款游戏都对计算机的操作要求不同,依赖基于屏幕截图的观测容易出现感知错误。
并且在对延迟敏感的的游戏中存在不可预测的延迟,这些问题都削弱了测试结果的一致性和可比性。
为此研究团队实现了一个采用Gym风格API的新标准化接口,来统一评估设置。
结合轻量级的感知与记忆辅助模块设计,稳定提示带来的差异并消除数据污染。
在13个领先模型上的实验表明,Lmgame-Bench具有挑战性,同时仍能有效区分不同模型。
排行榜前列由o3占据,这款模型以其强大的视觉感知、空间推理和长视野规划能力而著称。
不过令人意外的是,o3虽然完全拿下了2048、推箱子和俄罗斯方块,但是在糖果消除中远远落后。
现在,借助Lmgame提供的开源代码,任何人都可以通过一条命令为任何受支持的模型-游戏组合启动评估。
近期所有模型的进步表明,在数学和编程任务中,整合强化学习可以显著增强LLMs的推理能力。
即使是最简单的RL算法也能改善模型的规划和决策能力,这种能力在与复杂环境互动时显得尤为重要。
这些进展凸显了游戏环境作为评估LLMs的有效基准作用。
过去那些经典的游戏经过精心的设计,用来挑战人类的思维和认知能力。
同样地,这些游戏是极具价值但尚未被充分利用的AI基准测试资源。
同时,在经典游戏之外,我们现在还有众多的3A大作,可以预见,未来的评估体系将具有高度可扩展的发展路径。
Lmgame Bench的诞生,正是在这个背景下给出答案:真正的智能不仅要能写代码、做数学题,更要能在复杂、开放、动态的环境中持续思考、规划并行动。
而这场测试,还远未结束。
参考资料
https://lmgame.org/#/blog/pokemon_red
https://x.com/haoailab/status/1939777711502946544 |