美团开源5677亿参数大模型,两项测试刷新SOTA!
创始人
2026-03-21 23:39:26

IT之家 3 月 21 日消息,美团现已开源 LongCat-Flash-Prover 大模型,采用 5677 亿参数、MoE(混合专家模型)形态,旨在解决复杂的数学证明问题。

据介绍,该模型引入了混合专家迭代框架(hybrid-experts iteration framework),用于生成大规模、高质量的形式化推理轨迹。可通过整合 Lean4、基于 AST 的多阶段严格验证流程,消除“幻觉”现象。

训练方面,该模型使用混合专家迭代框架生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练。同时加入定理一致性和合法性检测机制防止 Reward Hacking(奖励黑客行为)。

基准测试表明,这款模型在 MiniF2F-Test 上取得 97.1% 的成绩,仅需 72 次推理尝试;在 PutnamBench 任务上解决了 41.5% 的问题,使用 118 次推理尝试,在上述两项测试中刷新 SOTA 水平。

IT之家附该模型开源地址如下:

  • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Prover
  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Prover

相关内容

热门资讯

山东万福河被指遭污染近10公里... 一名环保博主6月21日上午发布现场调查视频称,山东济宁市金乡县万福河遭严重污染,其中部分河段河水黑如...
男子一夜连叫3次代驾仍因醉驾被... 端午节假期,亲朋聚会、龙舟观赛、短途出游难免少不了小酌几杯,但请务必牢记:拿起酒杯,就请放下车钥匙!...
4分钟闪击!镰田大地连场破门 ... 北京时间6月21日12点,2026年世界杯F组次轮,突尼斯对阵日本。 第4分钟,日本队快速反击,田中...
四川一名滑翔爱好者飞行过程中,... 四川一名滑翔爱好者飞行过程中,滑翔伞不慎挂到30多米塔吊上,连伞带人数小时动弹不得,当地消防:人已平...
在哪考软装设计师证书 软装设计... 软装设计师是负责室内空间软装设计、采购、布置的专业人士,他们通过选择合适的家具、窗帘、地毯、灯具、艺...