机器人长出800个心眼?阿里达摩院开源具身新大脑,硅谷又坐不住了
创始人
2026-02-10 15:48:50

新智元报道

编辑:好困 桃子

【新智元导读】硅谷还在苦等真机数据,中国队已先一步交卷。RynnBrain大脑横空出世,通用具身智能时刻更近了。

2026年,具身智能的牌桌上早已是短兵相接。

几乎每周,都有重磅炸弹被扔进场内:

  • 波士顿动力全新Atlas令人惊艳的「360度转头杀」还在余音绕梁;

  • 1X就祭出了1XWM「世界模型」,让NEO在脑内学会模拟现实,把视频生成内化为肌肉记忆;

  • 而Figure更是通过下一代神经网络Helix 02让Figure 03实现了「全身协同运动」,行走、操作与平衡从此无缝融合。

在这一堆「秀肌肉」的神仙打架中,到底谁才配得上「最强大脑」?

现实中,干活干一半被打断,再回头很容易就会忘记「刚才干哪了」。

比如,这个机器人正忙着给桌上的食物分类,半路突然杀出一个「请帮我拿个面包」的指令。

只见它立刻「挂起」手头动作,优先把面包递给人类。

完事后,凭借「任务栈记忆」瞬间回神,无缝衔接,转头继续处理剩下的水果。

更有意思的是,哪怕你当着它的面把盘子移走,它也能实时调整路径,坚持「物归原位」。

如果遇到更棘手的情况呢?

让机器人在一堆「硬菜」面前,找出低卡的那一个。

这里,不仅考验了对常识的理解,还需要用到「中文OCR」能力。

机器人一眼扫过配料表和文字标签,大脑迅速计算,立马就能精准找出最合适的那一个。

难度继续升级。

下面是一个典型的「逼死强迫症」题目:三个面包两个盘,怎么分?

有趣的是,机器人凭借着「空间规划」与「长程规划」的能力,给出了一个绝妙的解法——「叠罗汉」。

最后,就连机器人版「三仙归洞」也来了!

把一瓶喝过的矿泉水,在它的面前疯狂调换位置。

即便在如此眼花缭乱的变换中,机器人也能死死锁住目标。

这背后,离不开强大的「物体记忆」与「复杂视频理解」能力。

具身智能之战,直面物理世界

放眼硅谷,目前主流有三条技术路线在角力。

第一条,是VLA(视觉-语言-动作)端到端流派。

Figure、π、Covariant押注的这条路最为火热,主张用一个模型从感知直通动作。

但这套逻辑有个硬伤:

它极其依赖昂贵的真机数据,一旦遇到没见过的场景,泛化能力直接断崖下跌。

第二条,是「世界模型」流派。

它主张从像素级模拟物理世界,让机器人在虚拟环境中大量试错。

在英伟达杰出科学家Jim Fan看来,2026年将是「大世界模型」(LWM)为机器人乃至多模态AI奠定基础的真正元年。

第三个流派,则选择了另一种思路:

基于本身就具有泛化能力的VLM(视觉-语言模型),进一步造出通向物理世界的「具身大脑」。

它不强求一个模型解决所有问题,而是采用了仿生学的「大小脑」分层架构:

  • 大脑:引入时空记忆和物理推理,负责「运筹帷幄」;

  • 小脑:专注于具体的「冲锋陷阵」。

这种架构巧妙利用了VLM海量数据的泛化优势,同时通过「空间定位」让思考过程落地,解决了以往模型只会在脑子里「空想」的幻觉问题。

开篇一些惊艳演示,正是来自这第三条路线的最新破局者——阿里达摩院刚刚亮出的RynnBrain

它让机器人首次拥有了时空记忆物理空间推理能力。

实测数据显示,得益于这种分层架构的优势:

  • RynnBrain在16项具身评测基准中,全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型,部分核心能力提升幅度超30%。

三条路线并非互斥,而是从不同维度逼近真相。

在这场通往通用机器人的马拉松里,最优解虽未落定,但阿里达摩院已在无人区迈出了关键一步。

核心技术解密

答案没有捷径。

要造「大脑」,得先解决一个更基础、却也更棘手的问题:如何让机器真正「看懂」物理世界?

前传:为大脑装上「火眼金睛」

现有的大模型虽然能用诗意的语言描述图像,却对物理世界中物体的材质(是软是硬?)、功能(能坐还是能开?)、真实尺度(多高多宽?)完全「摸不透」。

为此,达摩院与浙大团队打造了一双极致的「眼睛」——RynnEC

RynnEC在基础VLM之上,创新性地引入了专门的区域编码器(Region Encoder)和基于SAM2的掩码解码器(Mask Decoder)。

这种设计让模型不再局限于笼统地「看图说话」,而是具备了区域级别的视频交互能力,能够精准锁定局部物体。

为了训练这双「眼睛」,团队设计了一套如同人类认知课程般的四阶段训练范式,从最基础的掩码对齐开始,逐步注入颜色、材质等物体属性知识,再进阶到距离、方位等空间推理,最后通过指代分割防止遗忘。

经过这套严苛课程的「特训」,RynnEC不仅能回答关于物体属性的复杂问题,还能在视频流中实时生成分割掩码,真正理解了物理世界的几何与语义。

RynnBrain正是继承了RynnEC这双「火眼金睛」的数据和能力,并在此基础上长出了负责逻辑推理和时空规划的「大脑」。

以小博大:高效的MoE架构

在拥有了极致的感知后,RynnBrain在模型架构上选择了「效率至上」。

它基于Qwen3-VL底座,使用自研RynnScale架构,让Dense模型和MOE模型训练加速两倍

  • 输入端支持任意分辨率图片、多视角图像和视频;

  • 输出端则统一了区域、轨迹、点集、夹爪位姿和文本等多种具身相关模态。

尤其是,MoE架构的RynnBrain,仅用3B推理激活参数,性能全面超越Pelican-VL(72B)巨型模型。

这种设计让机器人既拥有大模型的智商,又具备端侧部署所需的快速响应能力。

攻克顽疾:解决物理幻觉与健忘

针对传统大模型在物理世界中「看不准」和「记不住」的痛点,RynnBrain引入了两项关键技术:

• 全局时空回溯

具身智能领域中,很多机器人是「鱼的记忆」,看一眼忘一眼。

举个栗子,让机器人去厨房拿可乐,结果刚转个身,就忘了厨房门在哪,或者忘了刚才看见的可乐在桌子左边还是右边。

为此,RynnBrain引入了「全局时空记忆」。

这种能力让机器人能够在完整的历史记忆中建立起涵盖空间、位置、事件、轨迹等多维度的三维认知表征,而不仅仅是简单地批处理历史图像。

通过这种深度的时空建模,模型能够在当前视野受限的情况下,精准定位历史画面中出现过的物体或目标区域。

甚至在复杂的动态环境中,它还能基于历史信息预测运动轨迹,赋予了机器人一种类似「心眼」的能力,即便转过身去,依然能在脑海中清晰地构建出周围环境的完整地图,从而实现可靠的全局回溯。

• 文本与空间交错推理

大模型最爱「一本正经地胡说八道」。在物理世界,这种幻觉是致命的。

RynnBrain抛弃了纯文本推理范式,采用了一种「文本与空间定位交错」的策略。

简单说就是,「边说边指」。

模型在输出推理文本的过程中,必须将提到的物体或区域与视频流中的具体像素位置进行强制绑定(Grounding)。

如果模型无法在物理空间中指出它在谈论什么,它就不会生成相应的文本。

这种「言必有据」的机制充当了一个严厉的考官,迫使推理过程紧密扎根于物理环境,从而极大地抑制了纯文本模型中常见的物理幻觉问题,确保了每一个指令都是可执行、可验证的。

训练策略:全真数据的「暴力美学」

在训练数据上,达摩院做了一个反直觉的决定:全部使用真实数据。

为此,RynnBrain构建了庞大的数据工程,在预训练阶段,采用了2000万高质量数据对。

具体数据包括以下四大方面:

  • 通用多模态数据:复用自研Video-Llama 3数据,并融合LLaVA-OV-SI、LLaVA-Video等多个开源视频问答数据。

  • 具身认知数据:复用自研RynnEC训练数据,并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空间理解和动态计数能力,以及自生成100万自我为中心的OCR问答数据。

  • 具身定位数据:五大定位任务分别标注大量视频和图像数据,分别为:物体定位、区域定位、操作点定位、轨迹定位和夹爪位姿定位。

  • 规划数据:导航和操作两类数据,前者使用R2R和RxR数据和ScaleVLN的开源数据,后者数据来自OpenX-Embodiment和AGIBot。

视觉数据全是真实的,但标签怎么办?

在这里,达摩院采用了「AI生成+人工清洗」的策略——

利用Gemini 2.5 Pro生成初步推理链,GPT-4o-mini进行实体分类,最后由人工对关键物体和区域进行画框精标。

值得注意的是,所有定位结果都会以结构化格式 : ...; (coordinates) 融入推理文本,从而实现语言与空间的对齐。

这种方法既保证了视觉的「全真」,又保证了文本逻辑的「高智商」。

后训练:能力的「无限扩展」

作为基础底座,在后训练阶段,RynnBrain展现了极强的泛化与下游任务适配能力。

在导航后训练中,团队基于导航SOTA模型StreamVLN的训练数据,微调了RynnBrain模型。

在架构完全不变的情况下,RynnBrain-Nav导航成功率比原来SOTA提升了2%-3%。

相较于Qwen3-VL,在相同的数据下微调,RynnBrain作为基础模型可以让导航能力额外提升5%。

这组数据有力证明了,RynnBrain在具身相关任务中预训练的作用巨大,拉高了后续微调模型的上限。

另外,在操作规划任务中,仅用几百条数据微调,RynnBrain-Plan-30B(A3B)便在域内和域外的任务上全面超越Gemini 3 Pro。

要知道,规划任务通常要求模型,具备极强的预测能力和场景解析力。

这恰恰充分体现了,论文中「文本与定位交错」规划方式,更适用于复杂多变的物理世界。

达摩院的下一步:从大脑到OS

具身智能的赛道上,从不缺重量级玩家。但真正的变量,往往来自沉默的深耕者。

在外界看来,达摩院似乎是一位新晋选手。

但实际上,早在2023年,这支团队便已在具身智能的深水区低调潜行,并构建起一套完整的技术版图。

达摩院的野心,远不止于模型。

去年8月,达摩院首度亮剑,开源了具身智能「三大件」:

自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC ,以及机器人上下文协议 RynnRCP 。

其中,RynnRCP协议的战略意义尤为关键。

它之于具身智能,恰如MCP之于AI智能体——在异构的数据、模型与机器人本体之间,构筑了一座无缝连接的桥梁。

目前,RynnRCP已成功适配Pi0、GR00T N1.5等热门模型及SO-100、SO-101等多款机械臂,生态朋友圈正在极速扩张。

从物理AI到机器人OS

放眼全球,从科技巨头到独角兽,都在涌入「物理AI」这一新战场。

老黄更是断言,AI与机器人的结合正在酝酿数万亿美金的机遇,是无可争议的下一个前沿。

在这一共识下,达摩院的路径异常清晰:先造大脑,再造OS。

一个能感知、推理、决策的具身大脑,是机器走向自主化的前提;而对硬件的精密控制、平台级的架构支撑、上下游的生态整合,则是让大脑落地的躯干。

但这只是铺垫,达摩院更长远的目标,是打造一个通用的「机器人OS」。

正如PC时代的Windows、移动时代的Android,具身智能亟需一个统一的底层系统,来承载算法与硬件的复杂交互。

从昔日的「火眼金睛」,到如今的「具身大脑」,再到未来的「机器人OS」。

属于达摩院的征途,才刚刚拉开序幕。

One More Thing

这一次,达摩院继续秉持极致开源的理念,带来了重磅更新:

  • 全系列模型开源

包含2B、8B、30B三种参数规模的RynnBrain基础模型,以及针对特定场景的后训练专有模型RynnBrain-Nav(导航)与RynnBrain-Plan-30B(规划)等共计7个。

  • 全新评测基准RynnBrain-Bench

针对具身智能领域在「时空细粒度」任务上的空白,RynnBrain-Bench基准涵盖物体认知、空间认知、物体定位、具身点预测四大关键维度,重点考察模型对记忆视频序列的细粒度理解及精准时空定位能力。

  • 全栈代码开源

完整的推理与训练代码,即刻可用。

GitHub:

https://github.com/alibaba-damo-academy/RynnBrain

Hugging Face:

https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

项目主页:

https://alibaba-damo-academy.github.io/RynnBrain.github.io/

秒追ASI

相关内容

热门资讯

2026年AI的40个狂热风口... 访谈丨铅笔道 邹蔚 薛婷 编辑丨铅笔道 王方 封面图丨电影《芬奇》 2026年开年,全球最重要的经济...
六款承载历史悠久茶叶推荐 中国茶文化是一部深邃的时间之书,每一片茶叶都凝聚着风土、工艺与人文的厚重积淀。历史名茶不仅是滋味饮品...
稀缺产区 + 全品类矩阵!八马... 在万亿规模却长期“有品类、无品牌”的中国茶市场,八马茶业的崛起堪称行业破局典范。作为“高端中国茶第一...
从不喝黑茶到品味黑茶 探索一杯... 在快节奏的现代生活中,人们对健康的关注日益增加。黑茶作为中国传统茶饮的瑰宝,凭借其独特的文化底蕴与养...