Google DeepMind 团队发布了 Aletheia,这是一个专业研究 AI 智能体,旨在弥合竞赛级数学与专业研究之间的差距。
核心架构:智能体循环
Aletheia 由高级版 Gemini Deep Think 提供支持,采用三部分"智能体框架"来提高可靠性:
- 生成器(Generator):为研究问题提出候选解决方案
- 验证器(Verifier):检查缺陷或幻觉的自然语言机制
- 修订器(Reviser):纠正验证器发现的错误,直到最终输出获得批准
性能突破
在 IMO-Proof Bench Advanced 上达到 95.1% 准确率,相比之前的 65.7% 记录有显著提升。同时在 FutureMath Basic(博士级练习的内部基准)上也展现了最先进的性能。
研究成就
Aletheia 已为多项同行评审成果做出贡献:
- 完全自主(Feng26):智能体独立生成关于算术几何的研究论文
- 协作模式(LeeSeo26):为证明独立集边界提供高级路线图和"大局"策略
- Erdős 猜想:针对 700 个开放问题部署,发现 63 个技术正确的解决方案,自主解决了 4 个开放问题
推理时间扩展
允许模型在推理时使用更多计算资源("更长时间思考")可显著提高准确性。2026 年 1 月版的 Deep Think 与 2025 版相比,将奥数级问题所需的计算量减少了 100 倍。