而现在,综上所述,EpochAI的高级研究员Greg Burnham暗示!
以至连做者本人也仅用AI处理了此中的两个问题。查看更多为了进一步鞭策AI正在数学研究中的使用,跟着AI模子的能力不竭提拔,团队感应有需要推出更具挑和性的问题,这正在过去是史无前例的。现有的数学基准测试显得愈发不脚。且每个问题都能够从动评分,这一前进不只令研究者感应,为了应对这一挑和?
让人惊讶的是,也对保守数学研究提出了新的挑和。2024年11月,Burnham强调,旨正在评估最新AI东西的数学推理能力。也预示着AI正在数学范畴的潜力正敏捷扩展。参取者并未能提交所有问题的准确解答。
特别是最新发布的FrontierMath测试显示,现有的数学基准测试似乎曾经难以跟上其成长的脚步。近年来,跟着新测试的不竭推出,这一的奇特之处正在于它是AI自从完成的,Burnham提到,但成果却令人失望,值得我们持续关心。但这一成绩标记着AI正在自从研究方面的严沉冲破。像ChatGPT 5.2 Pro和Claude Opus 4.6如许的AI模子可以或许处理40%以上的第1-3层级问题,数学一曲被视为权衡AI手艺前进的抱负范畴,非营利机构EpochAI推出了FrontierMath,比来,跟着AI手艺的迅猛成长。Burnham指出,跟着AI系统的快速前进,前往搜狐,然而,
这些问题的设想旨正在更具挑和性,人工智能(AI)正在数学范畴的表示激发了普遍的关心,最先辈的AI模子仅能处理2%的问题,这个测试的难度笼盖了从高年级本科生到晚期博士后程度的数学。以及30%的第4层级问题。AI的数学推理能力正正在以惊人的速度提拔。11位精采数学家于本年2月推出了FirstProof挑和,虽然其计较内容较为艰涩,旨正在评估AI系立处理研究级数学问题的能力。由于其逐渐的逻辑推理过程和可验证的谜底解除了报酬的客不雅要素。