新智元报道
编辑:好困 桃子
【新智元导读】硅谷还在苦等真机数据,中国队已先一步交卷。RynnBrain大脑横空出世,通用具身智能时刻更近了。
2026年,具身智能的牌桌上早已是短兵相接。
几乎每周,都有重磅炸弹被扔进场内:
波士顿动力全新Atlas令人惊艳的「360度转头杀」还在余音绕梁;
1X就祭出了1XWM「世界模型」,让NEO在脑内学会模拟现实,把视频生成内化为肌肉记忆;
而Figure更是通过下一代神经网络Helix 02让Figure 03实现了「全身协同运动」,行走、操作与平衡从此无缝融合。
在这一堆「秀肌肉」的神仙打架中,到底谁才配得上「最强大脑」?
现实中,干活干一半被打断,再回头很容易就会忘记「刚才干哪了」。
比如,这个机器人正忙着给桌上的食物分类,半路突然杀出一个「请帮我拿个面包」的指令。
只见它立刻「挂起」手头动作,优先把面包递给人类。
完事后,凭借「任务栈记忆」瞬间回神,无缝衔接,转头继续处理剩下的水果。
更有意思的是,哪怕你当着它的面把盘子移走,它也能实时调整路径,坚持「物归原位」。
如果遇到更棘手的情况呢?
让机器人在一堆「硬菜」面前,找出低卡的那一个。
这里,不仅考验了对常识的理解,还需要用到「中文OCR」能力。
机器人一眼扫过配料表和文字标签,大脑迅速计算,立马就能精准找出最合适的那一个。
难度继续升级。
下面是一个典型的「逼死强迫症」题目:三个面包两个盘,怎么分?
有趣的是,机器人凭借着「空间规划」与「长程规划」的能力,给出了一个绝妙的解法——「叠罗汉」。
最后,就连机器人版「三仙归洞」也来了!
把一瓶喝过的矿泉水,在它的面前疯狂调换位置。
即便在如此眼花缭乱的变换中,机器人也能死死锁住目标。
这背后,离不开强大的「物体记忆」与「复杂视频理解」能力。
具身智能之战,直面物理世界
放眼硅谷,目前主流有三条技术路线在角力。
第一条,是VLA(视觉-语言-动作)端到端流派。
Figure、π、Covariant押注的这条路最为火热,主张用一个模型从感知直通动作。
但这套逻辑有个硬伤:
它极其依赖昂贵的真机数据,一旦遇到没见过的场景,泛化能力直接断崖下跌。
第二条,是「世界模型」流派。
它主张从像素级模拟物理世界,让机器人在虚拟环境中大量试错。
在英伟达杰出科学家Jim Fan看来,2026年将是「大世界模型」(LWM)为机器人乃至多模态AI奠定基础的真正元年。
而第三个流派,则选择了另一种思路:
基于本身就具有泛化能力的VLM(视觉-语言模型),进一步造出通向物理世界的「具身大脑」。
它不强求一个模型解决所有问题,而是采用了仿生学的「大小脑」分层架构:
大脑:引入时空记忆和物理推理,负责「运筹帷幄」;
小脑:专注于具体的「冲锋陷阵」。
这种架构巧妙利用了VLM海量数据的泛化优势,同时通过「空间定位」让思考过程落地,解决了以往模型只会在脑子里「空想」的幻觉问题。
开篇一些惊艳演示,正是来自这第三条路线的最新破局者——阿里达摩院刚刚亮出的RynnBrain。
它让机器人首次拥有了时空记忆和物理空间推理能力。
实测数据显示,得益于这种分层架构的优势:
RynnBrain在16项具身评测基准中,全面超越了Gemini Robotics ER 1.5、Mimo-Embodied、Cosmos Reason 2等前沿模型,部分核心能力提升幅度超30%。
三条路线并非互斥,而是从不同维度逼近真相。
在这场通往通用机器人的马拉松里,最优解虽未落定,但阿里达摩院已在无人区迈出了关键一步。
核心技术解密
答案没有捷径。
要造「大脑」,得先解决一个更基础、却也更棘手的问题:如何让机器真正「看懂」物理世界?
前传:为大脑装上「火眼金睛」
现有的大模型虽然能用诗意的语言描述图像,却对物理世界中物体的材质(是软是硬?)、功能(能坐还是能开?)、真实尺度(多高多宽?)完全「摸不透」。
为此,达摩院与浙大团队打造了一双极致的「眼睛」——RynnEC。
RynnEC在基础VLM之上,创新性地引入了专门的区域编码器(Region Encoder)和基于SAM2的掩码解码器(Mask Decoder)。
这种设计让模型不再局限于笼统地「看图说话」,而是具备了区域级别的视频交互能力,能够精准锁定局部物体。
为了训练这双「眼睛」,团队设计了一套如同人类认知课程般的四阶段训练范式,从最基础的掩码对齐开始,逐步注入颜色、材质等物体属性知识,再进阶到距离、方位等空间推理,最后通过指代分割防止遗忘。
经过这套严苛课程的「特训」,RynnEC不仅能回答关于物体属性的复杂问题,还能在视频流中实时生成分割掩码,真正理解了物理世界的几何与语义。
RynnBrain正是继承了RynnEC这双「火眼金睛」的数据和能力,并在此基础上长出了负责逻辑推理和时空规划的「大脑」。
以小博大:高效的MoE架构
在拥有了极致的感知后,RynnBrain在模型架构上选择了「效率至上」。
它基于Qwen3-VL底座,使用自研RynnScale架构,让Dense模型和MOE模型训练加速两倍。
输入端支持任意分辨率图片、多视角图像和视频;
输出端则统一了区域、轨迹、点集、夹爪位姿和文本等多种具身相关模态。
尤其是,MoE架构的RynnBrain,仅用3B推理激活参数,性能全面超越Pelican-VL(72B)巨型模型。
这种设计让机器人既拥有大模型的智商,又具备端侧部署所需的快速响应能力。
攻克顽疾:解决物理幻觉与健忘
针对传统大模型在物理世界中「看不准」和「记不住」的痛点,RynnBrain引入了两项关键技术:
• 全局时空回溯
具身智能领域中,很多机器人是「鱼的记忆」,看一眼忘一眼。
举个栗子,让机器人去厨房拿可乐,结果刚转个身,就忘了厨房门在哪,或者忘了刚才看见的可乐在桌子左边还是右边。
为此,RynnBrain引入了「全局时空记忆」。
这种能力让机器人能够在完整的历史记忆中建立起涵盖空间、位置、事件、轨迹等多维度的三维认知表征,而不仅仅是简单地批处理历史图像。
通过这种深度的时空建模,模型能够在当前视野受限的情况下,精准定位历史画面中出现过的物体或目标区域。
甚至在复杂的动态环境中,它还能基于历史信息预测运动轨迹,赋予了机器人一种类似「心眼」的能力,即便转过身去,依然能在脑海中清晰地构建出周围环境的完整地图,从而实现可靠的全局回溯。
• 文本与空间交错推理
大模型最爱「一本正经地胡说八道」。在物理世界,这种幻觉是致命的。
RynnBrain抛弃了纯文本推理范式,采用了一种「文本与空间定位交错」的策略。
简单说就是,「边说边指」。
模型在输出推理文本的过程中,必须将提到的物体或区域与视频流中的具体像素位置进行强制绑定(Grounding)。
如果模型无法在物理空间中指出它在谈论什么,它就不会生成相应的文本。
这种「言必有据」的机制充当了一个严厉的考官,迫使推理过程紧密扎根于物理环境,从而极大地抑制了纯文本模型中常见的物理幻觉问题,确保了每一个指令都是可执行、可验证的。
训练策略:全真数据的「暴力美学」
在训练数据上,达摩院做了一个反直觉的决定:全部使用真实数据。
为此,RynnBrain构建了庞大的数据工程,在预训练阶段,采用了2000万高质量数据对。
具体数据包括以下四大方面:
通用多模态数据:复用自研Video-Llama 3数据,并融合LLaVA-OV-SI、LLaVA-Video等多个开源视频问答数据。
具身认知数据:复用自研RynnEC训练数据,并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空间理解和动态计数能力,以及自生成100万自我为中心的OCR问答数据。
具身定位数据:五大定位任务分别标注大量视频和图像数据,分别为:物体定位、区域定位、操作点定位、轨迹定位和夹爪位姿定位。
规划数据:导航和操作两类数据,前者使用R2R和RxR数据和ScaleVLN的开源数据,后者数据来自OpenX-Embodiment和AGIBot。
视觉数据全是真实的,但标签怎么办?
在这里,达摩院采用了「AI生成+人工清洗」的策略——
利用Gemini 2.5 Pro生成初步推理链,GPT-4o-mini进行实体分类,最后由人工对关键物体和区域进行画框精标。
值得注意的是,所有定位结果都会以结构化格式 : ...; (coordinates) 融入推理文本,从而实现语言与空间的对齐。
这种方法既保证了视觉的「全真」,又保证了文本逻辑的「高智商」。
后训练:能力的「无限扩展」
作为基础底座,在后训练阶段,RynnBrain展现了极强的泛化与下游任务适配能力。
在导航后训练中,团队基于导航SOTA模型StreamVLN的训练数据,微调了RynnBrain模型。
在架构完全不变的情况下,RynnBrain-Nav导航成功率比原来SOTA提升了2%-3%。
相较于Qwen3-VL,在相同的数据下微调,RynnBrain作为基础模型可以让导航能力额外提升5%。
这组数据有力证明了,RynnBrain在具身相关任务中预训练的作用巨大,拉高了后续微调模型的上限。
另外,在操作规划任务中,仅用几百条数据微调,RynnBrain-Plan-30B(A3B)便在域内和域外的任务上全面超越Gemini 3 Pro。
要知道,规划任务通常要求模型,具备极强的预测能力和场景解析力。
这恰恰充分体现了,论文中「文本与定位交错」规划方式,更适用于复杂多变的物理世界。
达摩院的下一步:从大脑到OS
具身智能的赛道上,从不缺重量级玩家。但真正的变量,往往来自沉默的深耕者。
在外界看来,达摩院似乎是一位新晋选手。
但实际上,早在2023年,这支团队便已在具身智能的深水区低调潜行,并构建起一套完整的技术版图。
达摩院的野心,远不止于模型。
去年8月,达摩院首度亮剑,开源了具身智能「三大件」:
自研VLA模型 RynnVLA-001-7B 、世界理解模型 RynnEC ,以及机器人上下文协议 RynnRCP 。
其中,RynnRCP协议的战略意义尤为关键。
它之于具身智能,恰如MCP之于AI智能体——在异构的数据、模型与机器人本体之间,构筑了一座无缝连接的桥梁。
目前,RynnRCP已成功适配Pi0、GR00T N1.5等热门模型及SO-100、SO-101等多款机械臂,生态朋友圈正在极速扩张。
从物理AI到机器人OS
放眼全球,从科技巨头到独角兽,都在涌入「物理AI」这一新战场。
老黄更是断言,AI与机器人的结合正在酝酿数万亿美金的机遇,是无可争议的下一个前沿。
在这一共识下,达摩院的路径异常清晰:先造大脑,再造OS。
一个能感知、推理、决策的具身大脑,是机器走向自主化的前提;而对硬件的精密控制、平台级的架构支撑、上下游的生态整合,则是让大脑落地的躯干。
但这只是铺垫,达摩院更长远的目标,是打造一个通用的「机器人OS」。
正如PC时代的Windows、移动时代的Android,具身智能亟需一个统一的底层系统,来承载算法与硬件的复杂交互。
从昔日的「火眼金睛」,到如今的「具身大脑」,再到未来的「机器人OS」。
属于达摩院的征途,才刚刚拉开序幕。
One More Thing
这一次,达摩院继续秉持极致开源的理念,带来了重磅更新:
全系列模型开源
包含2B、8B、30B三种参数规模的RynnBrain基础模型,以及针对特定场景的后训练专有模型RynnBrain-Nav(导航)与RynnBrain-Plan-30B(规划)等共计7个。
全新评测基准RynnBrain-Bench
针对具身智能领域在「时空细粒度」任务上的空白,RynnBrain-Bench基准涵盖物体认知、空间认知、物体定位、具身点预测四大关键维度,重点考察模型对记忆视频序列的细粒度理解及精准时空定位能力。
全栈代码开源
完整的推理与训练代码,即刻可用。
GitHub:
https://github.com/alibaba-damo-academy/RynnBrain
Hugging Face:
https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
项目主页:
https://alibaba-damo-academy.github.io/RynnBrain.github.io/
秒追ASI
下一篇:“无人机+AI”守护春运回家路