一个指令,机器人就懂你心:北大团队让科幻照进现实

想象这样一个清晨:阳光从窗帘缝隙溜进来,你窝在沙发里追剧,茶几上的水果盘见了底。不用起身,不用喊家人,只需要随口说一句「帮我把冰箱里的苹果拿过来」,一台灵巧的机器人就会穿过客厅、绕过茶几、打开冰箱、取回苹果——整个过程行云流水,仿佛它天生就懂你的心思。这样的场景,曾经只属于科幻电影的想象。而今天,北京大学董豪团队的工作让它离现实又近了一大步。 一个指令,机器人就懂你心:北大团队让科幻照进现实 新闻

为什么机器人总是「听不懂人话」?

我们都知道科幻电影里的机器人有多贴心——《钢铁侠》里的贾维斯随叫随到,《西部世界》里的接待员能精准理解游客的每一种表达。可现实呢?家里那台扫地机器人撞墙七八遍才能记住餐桌腿的位置,想要让它「去卧室把拖鞋叼过来」?门都没有。 一个指令,机器人就懂你心:北大团队让科幻照进现实 新闻

这背后的原因其实很残酷:此前的机器人导航系统是专门为某一种指令量身定制的。想让它找东西?训练一个物体导航模型。想让它听懂「往前走三米左转」这种话?再训练一个视觉语言导航模型。想要它理解「我渴了」这种抽象需求?那又得训练一个需求驱动导航模型。每个模型各管一摊,互不相通。 一个指令,机器人就懂你心:北大团队让科幻照进现实 新闻

问题在于,真实生活中的人类根本不会这样说话。谁会分门别类地给出「物体目标导航指令」或「视觉语言导航指令」呢?我们只会说一句「把客厅的遥控器拿给我」,或者「去厨房看看汤好了没有」。指令的形式是混杂的、模糊的、日常的——而这些旧系统偏偏听不懂这种「人话」。 一个指令,机器人就懂你心:北大团队让科幻照进现实 新闻

一个模型听懂所有指令的秘密

董豪团队的创新工作InstructNav正是为了解决这个问题而生。他们的核心思路是:与其为每种指令训练一个专属模型,不如训练一个能听懂所有指令的「超级翻译官」。 一个指令,机器人就懂你心:北大团队让科幻照进现实 新闻

这个翻译官的第一步工作叫做「动态导航链路」——把五花八门的指令翻译成统一的「导航语言」。比如说「去沙发那边坐坐」这句话,系统会把它拆解成「探索→电视附近区域→沙发所在位置」。为什么是电视?因为在你的家里,沙发和电视通常相邻而设,这是每个人都知道的常识。而大语言模型恰恰掌握了这种常识,能够帮助机器人做出合理推测。 一个指令,机器人就懂你心:北大团队让科幻照进现实 新闻

更有意思的是,这套链路是「动态」的。机器人边走边看,根据实际观察到的物体不断调整计划。走到客厅发现没有电视?没关系,系统会立即更新链路,改为探索「茶几附近」或其他可能的沙发位置。这种随机应变的灵活性,正是「动态」二字的精髓。

从「想」到「做」的最后一公里

当然,知道该去哪里只是成功的一半,另一半在于如何真正走过去。这里涉及一个技术难点:大模型给出的是抽象的「想法」,比如「去沙发附近」,但机器人真正执行时需要的是精确的动作指令,比如「向前走1.2米,左转45度,再向前走0.8米」。从抽象到具体,这中间横亘着一道鸿沟。

团队解决这个问题的方式颇为巧妙:引入「多源价值地图」系统。简单理解,就是给机器人的周围环境画一张「热力图」,越是想去的地方颜色越深(价值越高),越是需要避开的地方颜色越浅。具体来说,这张综合热力图由四张子图叠加而成——动作价值图告诉机器人「应该做什么」,语义价值图标注「目标在哪里」,直觉价值图判断「哪里走得通」,轨迹价值图提醒「别走回头路」。

机器人只需要在热力图上找到颜色最深的那个点,然后朝那里走就行了。这种「想清楚去哪里+找最近路径走过去」的模式,与我们人类导航时「先确定目的地、再查路线」的过程如出一辙。

从实验室到客厅还有多远?

在论文的实验部分,InstructNav在三类导航任务上都刷新了零样本设置的最好成绩。这意味着它能够在完全没见过的环境中,仅凭人类指令就完成导航任务,而不需要事先采集大量训练数据。这项能力对于机器人走向千家万户至关重要——毕竟每个家庭的布局都不同,教会机器人在你家干活,不能指望它先在你家「军训」三个月。

当然,现阶段的成果仍然是实验室环境下的验证。真实家庭场景的复杂性——散落的玩具、临时摆放的购物袋、爬上爬下的宠物——对系统的鲁棒性提出了更高要求。但这枚硬币的另一面是:InstructNav已经证明了一条可行路径,即借助大语言模型的常识推理能力,实现跨任务、跨场景的通用导航。

或许用不了太久,「帮我把」这三个字就会成为你和家中机器人之间最常用的开场白。