机器人长出800个心眼？阿里达摩院开源具身新大脑，硅谷又坐不住了_科普教育

机器人长出800个心眼？阿里达摩院开源具身新大脑，硅谷又坐不住了

创始人

2026-02-10 15:48:50

新智元报道

编辑：好困桃子

【新智元导读】硅谷还在苦等真机数据，中国队已先一步交卷。RynnBrain大脑横空出世，通用具身智能时刻更近了。

2026年，具身智能的牌桌上早已是短兵相接。

几乎每周，都有重磅炸弹被扔进场内：

波士顿动力全新Atlas令人惊艳的「360度转头杀」还在余音绕梁；
1X就祭出了1XWM「世界模型」，让NEO在脑内学会模拟现实，把视频生成内化为肌肉记忆；
而Figure更是通过下一代神经网络Helix 02让Figure 03实现了「全身协同运动」，行走、操作与平衡从此无缝融合。

在这一堆「秀肌肉」的神仙打架中，到底谁才配得上「最强大脑」？

现实中，干活干一半被打断，再回头很容易就会忘记「刚才干哪了」。

比如，这个机器人正忙着给桌上的食物分类，半路突然杀出一个「请帮我拿个面包」的指令。

只见它立刻「挂起」手头动作，优先把面包递给人类。

完事后，凭借「任务栈记忆」瞬间回神，无缝衔接，转头继续处理剩下的水果。

更有意思的是，哪怕你当着它的面把盘子移走，它也能实时调整路径，坚持「物归原位」。

如果遇到更棘手的情况呢？

让机器人在一堆「硬菜」面前，找出低卡的那一个。

这里，不仅考验了对常识的理解，还需要用到「中文OCR」能力。

机器人一眼扫过配料表和文字标签，大脑迅速计算，立马就能精准找出最合适的那一个。

难度继续升级。

下面是一个典型的「逼死强迫症」题目：三个面包两个盘，怎么分？

有趣的是，机器人凭借着「空间规划」与「长程规划」的能力，给出了一个绝妙的解法——「叠罗汉」。

最后，就连机器人版「三仙归洞」也来了！

把一瓶喝过的矿泉水，在它的面前疯狂调换位置。

即便在如此眼花缭乱的变换中，机器人也能死死锁住目标。

这背后，离不开强大的「物体记忆」与「复杂视频理解」能力。

具身智能之战，直面物理世界

放眼硅谷，目前主流有三条技术路线在角力。

第一条，是VLA（视觉-语言-动作）端到端流派。

Figure、π、Covariant押注的这条路最为火热，主张用一个模型从感知直通动作。

但这套逻辑有个硬伤：

它极其依赖昂贵的真机数据，一旦遇到没见过的场景，泛化能力直接断崖下跌。

第二条，是「世界模型」流派。

它主张从像素级模拟物理世界，让机器人在虚拟环境中大量试错。

在英伟达杰出科学家Jim Fan看来，2026年将是「大世界模型」（LWM）为机器人乃至多模态AI奠定基础的真正元年。

而第三个流派，则选择了另一种思路：

基于本身就具有泛化能力的VLM（视觉-语言模型），进一步造出通向物理世界的「具身大脑」。

它不强求一个模型解决所有问题，而是采用了仿生学的「大小脑」分层架构：

大脑：引入时空记忆和物理推理，负责「运筹帷幄」；
小脑：专注于具体的「冲锋陷阵」。

这种架构巧妙利用了VLM海量数据的泛化优势，同时通过「空间定位」让思考过程落地，解决了以往模型只会在脑子里「空想」的幻觉问题。

开篇一些惊艳演示，正是来自这第三条路线的最新破局者——阿里达摩院刚刚亮出的RynnBrain。

它让机器人首次拥有了时空记忆和物理空间推理能力。

实测数据显示，得益于这种分层架构的优势：

RynnBrain在16项具身评测基准中，全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型，部分核心能力提升幅度超30%。

三条路线并非互斥，而是从不同维度逼近真相。

在这场通往通用机器人的马拉松里，最优解虽未落定，但阿里达摩院已在无人区迈出了关键一步。

核心技术解密

答案没有捷径。

要造「大脑」，得先解决一个更基础、却也更棘手的问题：如何让机器真正「看懂」物理世界？

前传：为大脑装上「火眼金睛」

现有的大模型虽然能用诗意的语言描述图像，却对物理世界中物体的材质（是软是硬？）、功能（能坐还是能开？）、真实尺度（多高多宽？）完全「摸不透」。

为此，达摩院与浙大团队打造了一双极致的「眼睛」——RynnEC。

RynnEC在基础VLM之上，创新性地引入了专门的区域编码器（Region Encoder）和基于SAM2的掩码解码器（Mask Decoder）。

这种设计让模型不再局限于笼统地「看图说话」，而是具备了区域级别的视频交互能力，能够精准锁定局部物体。

为了训练这双「眼睛」，团队设计了一套如同人类认知课程般的四阶段训练范式，从最基础的掩码对齐开始，逐步注入颜色、材质等物体属性知识，再进阶到距离、方位等空间推理，最后通过指代分割防止遗忘。

经过这套严苛课程的「特训」，RynnEC不仅能回答关于物体属性的复杂问题，还能在视频流中实时生成分割掩码，真正理解了物理世界的几何与语义。

RynnBrain正是继承了RynnEC这双「火眼金睛」的数据和能力，并在此基础上长出了负责逻辑推理和时空规划的「大脑」。

以小博大：高效的MoE架构

在拥有了极致的感知后，RynnBrain在模型架构上选择了「效率至上」。

它基于Qwen3-VL底座，使用自研RynnScale架构，让Dense模型和MOE模型训练加速两倍。

输入端支持任意分辨率图片、多视角图像和视频；
输出端则统一了区域、轨迹、点集、夹爪位姿和文本等多种具身相关模态。

尤其是，MoE架构的RynnBrain，仅用3B推理激活参数，性能全面超越Pelican-VL（72B）巨型模型。

这种设计让机器人既拥有大模型的智商，又具备端侧部署所需的快速响应能力。

攻克顽疾：解决物理幻觉与健忘

针对传统大模型在物理世界中「看不准」和「记不住」的痛点，RynnBrain引入了两项关键技术：

• 全局时空回溯

具身智能领域中，很多机器人是「鱼的记忆」，看一眼忘一眼。

举个栗子，让机器人去厨房拿可乐，结果刚转个身，就忘了厨房门在哪，或者忘了刚才看见的可乐在桌子左边还是右边。

为此，RynnBrain引入了「全局时空记忆」。

这种能力让机器人能够在完整的历史记忆中建立起涵盖空间、位置、事件、轨迹等多维度的三维认知表征，而不仅仅是简单地批处理历史图像。

通过这种深度的时空建模，模型能够在当前视野受限的情况下，精准定位历史画面中出现过的物体或目标区域。

甚至在复杂的动态环境中，它还能基于历史信息预测运动轨迹，赋予了机器人一种类似「心眼」的能力，即便转过身去，依然能在脑海中清晰地构建出周围环境的完整地图，从而实现可靠的全局回溯。

• 文本与空间交错推理

大模型最爱「一本正经地胡说八道」。在物理世界，这种幻觉是致命的。

RynnBrain抛弃了纯文本推理范式，采用了一种「文本与空间定位交错」的策略。

简单说就是，「边说边指」。

模型在输出推理文本的过程中，必须将提到的物体或区域与视频流中的具体像素位置进行强制绑定（Grounding）。

如果模型无法在物理空间中指出它在谈论什么，它就不会生成相应的文本。

这种「言必有据」的机制充当了一个严厉的考官，迫使推理过程紧密扎根于物理环境，从而极大地抑制了纯文本模型中常见的物理幻觉问题，确保了每一个指令都是可执行、可验证的。

训练策略：全真数据的「暴力美学」

在训练数据上，达摩院做了一个反直觉的决定：全部使用真实数据。

为此，RynnBrain构建了庞大的数据工程，在预训练阶段，采用了2000万高质量数据对。

具体数据包括以下四大方面：

通用多模态数据：复用自研Video-Llama 3数据，并融合LLaVA-OV-SI、LLaVA-Video等多个开源视频问答数据。

具身认知数据：复用自研RynnEC训练数据，并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空间理解和动态计数能力，以及自生成100万自我为中心的OCR问答数据。

具身定位数据：五大定位任务分别标注大量视频和图像数据，分别为：物体定位、区域定位、操作点定位、轨迹定位和夹爪位姿定位。

规划数据：导航和操作两类数据，前者使用R2R和RxR数据和ScaleVLN的开源数据，后者数据来自OpenX-Embodiment和AGIBot。

视觉数据全是真实的，但标签怎么办？

在这里，达摩院采用了「AI生成+人工清洗」的策略——

利用Gemini 2.5 Pro生成初步推理链，GPT-4o-mini进行实体分类，最后由人工对关键物体和区域进行画框精标。

值得注意的是，所有定位结果都会以结构化格式 : ...; (coordinates) 融入推理文本，从而实现语言与空间的对齐。

这种方法既保证了视觉的「全真」，又保证了文本逻辑的「高智商」。

后训练：能力的「无限扩展」

作为基础底座，在后训练阶段，RynnBrain展现了极强的泛化与下游任务适配能力。

在导航后训练中，团队基于导航SOTA模型StreamVLN的训练数据，微调了RynnBrain模型。

在架构完全不变的情况下，RynnBrain-Nav导航成功率比原来SOTA提升了2%-3%。

相较于Qwen3-VL，在相同的数据下微调，RynnBrain作为基础模型可以让导航能力额外提升5%。

这组数据有力证明了，RynnBrain在具身相关任务中预训练的作用巨大，拉高了后续微调模型的上限。

另外，在操作规划任务中，仅用几百条数据微调，RynnBrain-Plan-30B(A3B)便在域内和域外的任务上全面超越Gemini 3 Pro。

要知道，规划任务通常要求模型，具备极强的预测能力和场景解析力。

这恰恰充分体现了，论文中「文本与定位交错」规划方式，更适用于复杂多变的物理世界。

达摩院的下一步：从大脑到OS

具身智能的赛道上，从不缺重量级玩家。但真正的变量，往往来自沉默的深耕者。

在外界看来，达摩院似乎是一位新晋选手。

但实际上，早在2023年，这支团队便已在具身智能的深水区低调潜行，并构建起一套完整的技术版图。

达摩院的野心，远不止于模型。

去年8月，达摩院首度亮剑，开源了具身智能「三大件」：

自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC ，以及机器人上下文协议 RynnRCP 。

其中，RynnRCP协议的战略意义尤为关键。

它之于具身智能，恰如MCP之于AI智能体——在异构的数据、模型与机器人本体之间，构筑了一座无缝连接的桥梁。

目前，RynnRCP已成功适配Pi0、GR00T N1.5等热门模型及SO-100、SO-101等多款机械臂，生态朋友圈正在极速扩张。

从物理AI到机器人OS

放眼全球，从科技巨头到独角兽，都在涌入「物理AI」这一新战场。

老黄更是断言，AI与机器人的结合正在酝酿数万亿美金的机遇，是无可争议的下一个前沿。

在这一共识下，达摩院的路径异常清晰：先造大脑，再造OS。

一个能感知、推理、决策的具身大脑，是机器走向自主化的前提；而对硬件的精密控制、平台级的架构支撑、上下游的生态整合，则是让大脑落地的躯干。

但这只是铺垫，达摩院更长远的目标，是打造一个通用的「机器人OS」。

正如PC时代的Windows、移动时代的Android，具身智能亟需一个统一的底层系统，来承载算法与硬件的复杂交互。

从昔日的「火眼金睛」，到如今的「具身大脑」，再到未来的「机器人OS」。

属于达摩院的征途，才刚刚拉开序幕。

One More Thing

这一次，达摩院继续秉持极致开源的理念，带来了重磅更新：

全系列模型开源

包含2B、8B、30B三种参数规模的RynnBrain基础模型，以及针对特定场景的后训练专有模型RynnBrain-Nav（导航）与RynnBrain-Plan-30B（规划）等共计7个。

全新评测基准RynnBrain-Bench

针对具身智能领域在「时空细粒度」任务上的空白，RynnBrain-Bench基准涵盖物体认知、空间认知、物体定位、具身点预测四大关键维度，重点考察模型对记忆视频序列的细粒度理解及精准时空定位能力。

全栈代码开源

完整的推理与训练代码，即刻可用。

GitHub:

https://github.com/alibaba-damo-academy/RynnBrain

Hugging Face:

https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

项目主页：

https://alibaba-damo-academy.github.io/RynnBrain.github.io/

秒追ASI

上一篇：AI应用集体“上春晚” 豆包官宣“参战”!

下一篇：“无人机+AI”守护春运回家路

机器人长出800个心眼？阿里达摩院开源具身新大脑，硅谷又坐不住了

相关内容

热门资讯