Mistral发布Leanstral,一个60亿参数的AI代理,用于Lean 4形式验证,以1/15的成本击败更大的模型,采用Apache 2.0许可证。(阅读更多Mistral发布Leanstral,一个60亿参数的AI代理,用于Lean 4形式验证,以1/15的成本击败更大的模型,采用Apache 2.0许可证。(阅读更多

Mistral AI 推出 Leanstral 开源证明代理用于 Lean 4

2026/03/17 03:13
阅读时长 5 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

Mistral AI 推出 Leanstral 开源证明代理用于 Lean 4

Zach Anderson 2026年3月16日 19:13

Mistral 发布 Leanstral,一个用于 Lean 4 形式化验证的 6B 参数 AI 代理,在 Apache 2.0 许可下以 1/15 的成本击败更大的模型。

Mistral AI 推出 Leanstral 开源证明代理用于 Lean 4

Mistral AI 于 2026年3月16日发布了 Leanstral——首个专门为 Lean 4 形式化验证构建的开源 AI 代理。这个 120B 参数模型仅运行 6B 活跃参数,并在 Apache 2.0 许可下发布,使生产级定理证明无需企业预算即可实现。

这对加密货币为何重要?形式化验证——数学证明代码确实按其声称的方式运行——已成为保护智能合约和区块链协议的黄金标准。DeFi 代码中的漏洞已造成数十亿损失。Leanstral 可以大幅降低寻求经验证安全性的项目门槛。

性能与成本权衡

Mistral 使用 FLTEval 对 Leanstral 进行基准测试,与专有和开源竞争对手进行比较,FLTEval 是一个新的评估套件,测试来自费马大定理形式化项目的真实证明工程任务。

数字令人惊讶。Leanstral 在 pass@2 时以 36 美元的计算成本获得 26.3 分。Claude Sonnet 4.6 获得 23.7 分,但产生了 549 美元的账单——成本超过 15 倍,性能却更差。即使在 pass@16 时,Leanstral 以 290 美元获得 31.9 分,成本仍不到 Claude Opus 4.6 的 1,650 美元价格标签的五分之一(尽管 Opus 以 39.6 分领先质量)。

与开源替代品相比,效率差距进一步扩大。GLM5-744B-A40B 和 Kimi-K2.5-1T-A32B 在 16-20 分左右达到平稳,尽管拥有 6-8 倍更多的活跃参数。Qwen3.5-397B-A17B 需要四次通过才能达到 25.4 分——Leanstral 用两次就超越了。

技术架构

Leanstral 使用为证明工程工作流优化的稀疏专家混合架构。该模型通过 MCP(模型上下文协议)与 Lean 的语言服务器协议集成,专门训练以实现与 lean-lsp-mcp 工具的最佳性能。

Lean 4 本身于 2023年9月推出稳定版,并在形式化数学方面得到快速采用。Mathlib 库——一个庞大的数学证明集合——同年成功移植到 Lean 4。像费马大定理形式化证明这样的项目展示了该平台进行严肃数学工作的能力。

实际应用

Mistral 展示了 Leanstral 处理一个关于 Lean 4.29.0-rc6 中重大变更的真实 Stack Exchange 调试问题。该代理诊断出类型别名的定义相等问题,并正确识别出将 def 替换为 abbrev 将恢复策略匹配。

该模型还展示了跨语言翻译,将 Rocq(以前称为 Coq)定义转换为 Lean 4,同时保留证明语义并实现自定义符号。

访问选项

存在三种部署路径:在 Mistral Vibe 中直接集成(使用 /leanstall 开始),在 labs-leanstral-2603 的免费 API 端点进行限时反馈收集,或使用 Apache 2.0 权重进行自托管部署。

对于区块链项目来说,计算很简单。形式化验证传统上需要昂贵的审计公司或深厚的内部专业知识。一个能够以每项任务 36-290 美元证明代码正确性的开源代理可以重塑协议处理安全性的方式——假设证明在生产条件下经得起考验。

图片来源:Shutterstock
  • mistral ai
  • leanstral
  • lean 4
  • 形式化验证
  • 开源
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。