> 自媒体 > (AI)人工智能 > 先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?
先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?
来源:机器之心Pro
2025-03-19 15:46:29
363
管理

左:Overcooked Challenge 的关卡1,同时支持单人和双人游戏;右:Overcooked Challenge 的关卡2

作者使用了一系列的大小模型在 Overcooked Challenge 单人游戏上进行了测试,可以明显的看到绝大多数非推理模型在直接决策(Act as System 1)以及推理模型先思考再决策(Long CoT Act as System 2)的情况下都无法得分,即使强如 GPT-4o,也无法超越简单的有限状态机(FSM)。

横轴为得分效率:正得分(即不含扣分)/有效宏操作,纵轴为每局游戏平均得分,圆的大小代表模型每一次决策从输入到输出的平均延时(秒)

这使得我们思考一个问题,模型是否能像人一样,一边不间断地做手上的工作,一边思考更复杂的策略,而不是想一步做一步?

借鉴人类双过程理论(Dual Process Theory),DPT-Agent 通过 System 1 和 System 2 的结合,为 Agent 装上「人脑同款双系统」:

「快脑」System 1—— 条件反射级响应代码即策略(Code-as-Policy):将高频操作(灭火、递食材)固化为有限状态机(FSM)规则,优化初始 FSM 策略;持续输出保障:即使 System 2 在后台思考,System 1 也能按 FSM 中最新策略持续行动,杜绝 “宕机卡顿”,原子动作响应延迟 < 0.1 秒。「慢脑」System 2—— 战略级读心术心智理论(ToM):让 LLM 通过分析玩家动作历史,实时构建人类意图模型(例:「TA 连续取牛肉→今晚主打牛肉汉堡」);异步反思:在「快脑」指挥智能体做菜的同时,「慢脑」根据游戏历史优化策略,如发现「生菜总是不够」,自动调整备菜优先级,边协作边进化。

轴为得分效率:正得分(即不含扣分)/有效宏操作,纵轴为每局游戏平均得分,圆的大小代表模型每一次决策从输入到输出的平均延时(秒)

「智能协作实战」:当 DPT-Agent 遇上「偏科队友」

在真实的协作场景中,AI 常需面对能力参差不齐的伙伴 —— 可能是只会切菜的规则机器人,或是专注煎牛排却绝不上菜的「一根筋」AI。DPT-Agent 如何应对?团队设计了残酷的多智能体实验:

极端测试:与「偏科 AI」组队让 DPT-Agent 搭档三类规则 AI(专精切生菜 / 煎牛排 / 组装汉堡)。

为了公平比较,ReAct 和 Reflexion 使用和 DPT-Agent 相同的 System 2 输出方式与动作执行器来实现为 System 1 System 2 框架。

推理模型战胜高延迟:DeepSeek-R1 满血版在 DPT-Agent 框架加持下,相比使用 ReAct 的 - 42.5 分有大幅提升,获得 74.3 分的战绩,逆袭成 MVP, o3-mini-high 相比 o3-mini-medium 和 o3-mini-low 即使延迟增大,也一样呈现能力上升趋势。非推理模型表现也亮眼:DeepSeek-V3 在 DPT_Agent 框架加持下表现与满血 DeepSeek-R1 接近,展现不俗实力。ToM 模块的双刃剑:神助攻案例:当规则 AI 是专注取牛肉的 Agent 时,DeepSeek-R1-70b 驱动的 DPT-Agent 通过 ToM 推断「玩家专注牛肉汉堡」,主动改变策略备好面包 生菜人类持续传递牛肉表明其偏爱处理肉类,所以智能体应专注于其他任务以优化团队合作。当规则 AI 是专注组装汉堡并上菜的 Agent 时,o3-mini-low 驱动的 DPT-Agent 通过 ToM 推断 “玩家专注于组装汉堡并上菜”,及时调整策略为准备所有的食材来进行配合人类玩家优先处理紧急的牛肉订单并进行快速组装,通常专注于组装和提供即食食品。智能体应通过准备熟透的牛肉并迅速传递完成的食材来支持这一点,以确保更顺畅的协作。翻车现场:「ToM 模块是协作上限的钥匙,但锁眼必须匹配模型自身的心智推理能力」。Llama3-70B 可能因自身 ToM 能力薄弱,搭载完整 DPT-Agent 后反而得分下降,没有观察到显著的推断现象关于 ToM 模块的更多研究,尤其是 Agent 和人的双向 ToM 过程,可以参考团队的另一篇工作「Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task」。论文链接:https://arxiv.org/abs/2409.08811

「真实人类协作」:主客观均是协作王者

团队在学校内招募了 68 位学生和多智能体实验中所有的 Agent 进行了协作实验,并在先前实验的基础上增加了一个关卡。实验参与者在完全未知 Agent 身份的情况下与所有 Agent 以随机顺序进行实验,对 Agent 进行了协作能力和偏好程度的打分。

DPT-Agent 展现了超强协作能力,得分在两个地图上碾压其他框架,主观协作能力和人类主观偏好得分最高。

DPT-Agent和人类玩家在关卡1的游戏过程(蓝色帽子为人类玩家,红色帽子为DPT-Agent,视频为2倍速)

与人类协作游戏得分与各Agent的得分贡献率

人类主观评价得分

开源评估框架

DPT-Agent 使用的 Overcooked Challenge 环境现已开源,支持 Act,ReAct,Reflexion,ReAct in DPT, Reflexion in DPT, DPT-Agent w/o ToM,DPT-Agent 多种框架下的模型评估,同时公开多达 34 个主流模型包含 DeepSeek-R1 在内的评估结果,评估结果现已在 AGI-Eval 平台上线,未来计划推出人机协作评估,请大家一起来和大模型玩分手厨房!

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
三菱退出中国?官方回应:将与现有伙伴继续合作
6月23日,有媒体报道称,三菱汽车将逐步取消包括欧洲、中国在内的市场业..
2026款三菱帕杰罗曝光,第二代超选四驱+2.4T/2.0T双动力..
硬派越野圈的“老将”居然换小排量了?2026款三菱帕杰罗刚露出消息,就把..
恩智浦计划退出5G功率放大器业务;三星或将退出SATA SSD市场;三菱化学出售..
五分钟了解产业大事每日头条芯闻 恩智浦计划退出5G功率放大器业务我国首..
实拍三菱全新欧蓝德!搭1.5T四缸,内饰配大屏,不比奇骏香?..
在重庆车展上,全新一代三菱欧蓝德终于在国内亮相了,相比其国外的发布时..
试驾广汽三菱奕歌:小巧灵动
■ 阅车试驾车型:广汽三菱奕歌长/宽/高(mm):4405/1805/1685轴距(mm..
新车 | 四驱越野MPV/配侧滑门/2.2T柴油机,新款三菱Delica D:5亮相..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,2025东京车展开幕,新款..
三菱集团的传奇发家史
“三菱”两个字,在日本就像一把瑞士军刀:银行、飞机、汽车、火箭、寿司..
2026款三菱Montero曝光,S-AWC四驱+差速锁全配,普拉多见了..
当 “普拉多见了都得慌” 的话题在越野圈炸锅,2026 款三菱 Montero 的曝..
日韩巨擘数据,三星2.1万亿三菱21万亿,中国第一谁?..
图片来源于网络2025年,让人火大的资本较量又来一波。韩国三星手里握着2...
关于作者
冷冷的太阳..(普通会员)
文章
1660
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索