Meta公司与Mila-Quebec AI Institute、蒙特利尔大学以及普林斯顿大学的研究团队共同推出了一种名为“元认知复用”(Metacognitive Reuse)的创新机制,旨在解决大型语言模型在处理复杂任务时,如数学和编程问题,常常出现的重复推导问题。

这项技术通过让模型自我回顾和总结解题思路,将常用的推理步骤提炼成简洁的“行为”,并存储在“行为手册”中,当模型再次遇到类似问题时,可以直接从手册中调用相应的“行为”,无需重新推导。

实验结果表明,这一机制在MATH、AIME等数学基准测试中表现卓越,不仅在保持准确率的前提下,最多减少了46%的推理token使用量,还在以下三种应用场景中实现了显著优化:

推理token减少46%!Meta新方法缩短思维链,告别重复推导

  1. 行为条件推理(BCI):在MATH和AIME数据集上,使用更少的token即可达到与基线相当或更优的性能,且性能随token增加而提升,不影响模型原有能力。

  2. 行为引导的自我改进:模型能够自我评估和修正推理过程,类似于自己“改作业”,通过提取过往解题过程中的行为模式,优化后续推理效果,相比基线方法,准确率最多提升10%。

  3. 行为条件监督微调(BC-SFT):该方法将高质量的行为直接融入模型参数中,不仅提高了token的使用效率,而且在大多数情况下,准确率也优于基线模型。

这一创新机制为大型语言模型在处理复杂任务时提供了更高效、更智能的解决方案,标志着人工智能领域的一项重要进步。