谷歌DeepMind颁布了一项重大成绩,运用AlphaProof和AlphaGeometry 2两个混合大模型参加了2024年国际数学奥林匹克竞赛(IMO)并得到了银牌。
IMO是最古老、权威的数学竞赛,每年都会有来自世界各地精英级数学家参与,同期亦是AI模型的竞技场,是衡量其数学推理能力的最佳平台。
在今年的比赛中,一共有6道数学题,每答对一道获7分。AlphaProof处理了两道代数和一个数论问题;AlphaGeometry 2答对了一道几何题,一共得到了28分仅比金牌少1分。
值得一提的是,AlphaProof解答了今年IMO比赛最难的一道题,609位参赛者仅有5个人给出了正确答案。
AlphaGeometry 2
早在今年1月17日谷歌便发布了AlphaGeometry模型,并在30道几何奥林匹克测试题中答对了25道,这比之前由中国著名数学家、计算机家-吴文俊提出的最先进办法还多15道,仅比人类金牌得主少0.9分。
AlphaGeometry的核心在于其神经符号框架,一个能够自动处理欧几里得平面几何问题的繁杂模型,绕过了传统设备学习办法中对海量人类证明数据的依赖,实现了从零起始的自我学习,使得AlphaGeometry能够生成海量的合成定理和证明,构建出一个有向无环图,暗示所有达到到的结论。
证明搜索是AlphaGeometry神经符号框架的核心之一,这是一个循环过程,语言模型和符号推理引擎交替运行。
语言模型按照问题描述生成新的辅助构造,符号推理引擎则利用这些构造扩展其推理闭包,直到达到结论或达到最大迭代次数。在每一次循环中,语言模型都会按照当前的证明状态和已有的构造生成一个新的辅助构造。
而后,符号推理引擎会将这个新构造纳入思虑,尝试经过规律推理来接近或达到结论。倘若推理引擎能够证明定理,搜索过程结束;倘若不行,循环将继续,语言模型将生成另一个辅助构造。
证明修剪是AlphaGeometry另一一个重要功能。在自动证明过程中,可能会生成有些不必要的辅助构造,这些构造虽然不是错误的,但它们可能会使证明过程变得冗长和繁杂。经过证明修剪能够去除这些不必要的构造,确保准明的简洁性和可读性。
AlphaGeometry经过穷举实验和错误的办法进行证明修剪。模型会尝试丢弃每一个辅助点的子集,并重新运行符号推理引擎,以验证在无这些辅助点的状况下是不是仍然能够达到结论。经过这种方式,模型能够找到并返回所有可能证明中的最短路径。
另外,在合成证明生成中,AlphaGeometry引入了“依赖差异”的概念,这一概念准许系统生成构建辅助点的证明过程,并超越了纯符号推理的范围。
辅助构造是几何证明中的一个关键挑战,它表率了证明过程中的无限分支原因。经过这种方式,AlphaGeometry能够生成几乎无限的证明变体,为深度学习模型供给了丰富的训练数据。
而AlphaGeometry 2是在一代的基本之上进行了海量迭代和技术创新,运用了谷歌自研的Gemini做为语言模型,并在比一代多一个数量级的合成数据上从头起始训练。
AlphaGeometry 2运用的符号引擎比其前身快两个数量级。当显现新问题时,运用一种新的知识共享机制来实现区别搜索树的高级组合,以处理更繁杂的数学困难。
在今年IMO比赛之前,AlphaGeometry 2能够处理过去25年所有IMO几何问题的83%,而一代处理率仅有53%。
在今年正式比赛中,AlphaGeometry 2在收到几何问题后,仅用19秒便处理了这道困难,达到了人类难以企及的超有效率。
AlphaProof
AlphaProof是谷歌最新研发的一个专门用于形式数学推理的模型,其核心特点是结合了预训练语言模型和AlphaZero强化学习算法,能够在繁杂的数学问题上展现出强大的推理能力。
AlphaProof的工作原理是运用形式语言Lean来进行数学证明。形式语言的优良在于能够严格验证推理过程的正确性,但传统上受限于人工编写的数据量较少。
为认识决这一困难,AlphaProof运用了一个经过微调的Gemini大模型,将自然语言问题自动转换为形式语言表述,从而创建了一个包括各样难度和数学主题的大规模形式问题库。
在面对一个新问题时,AlphaProof会生成处理方法候选,而后经过在Lean中搜索可能的证明过程来证明或反驳这些候选解。每一个被发掘和验证的证明都会用来强化AlphaProof的语言模型,加强它处理后续更具挑战性问题的能力。
为了备战2024年IMO,AlphaProof在比赛前的几周内进行了密集数据训练,证明或反驳了数百万个问题,涵盖了广泛的难度和数学主题行业。
谷歌暗示,日前的AI模型在处理通常的数学问题时仍然存在困难,重点是由于推理的局限性和训练数据不足。这次参数的两个混合大模型已然具备数学推理的AGI(通用人工智能)能力,能够帮忙数学专家发掘新的解题办法,同期亦是AI在数学行业的重大技术突破。
|