玖玖策略语言模型也能学会使用工具了？ByteDance和复旦大学开发全自动训练系统让AI变身万能助手

当我们使用手机时，会根据不同需要打开不同应用：拍照用相机、导航用地图、计算用计算器。如果有一天，人工智能也能像人类一样灵活使用各种工具来解决问题，那会是什么样的体验？最近，由ByteDance Seed团队和复旦大学联合完成的一项研究就探索了这个令人兴奋的方向。这项研究由复旦大学的叶俊杰博士领导，发表于2024年8月，研究团队包括来自复旦大学和字节跳动的多位研究者。感兴趣的读者可以通过GitHub链接https://github.com/bytedance/FTRL访问完整的代码和数据。

传统的大语言模型就像一个博学但缺乏实践能力的书生，虽然知识渊博，但面对需要实际操作的任务时往往束手无策。比如，当你问它"明天北京的天气如何"，它无法主动查询天气预报；当你让它帮你预订餐厅，它也无法直接调用预订系统。这就好比一个人空有满腹学问，却不会使用任何工具。

为了让AI学会使用工具，研究者们面临着两个主要挑战。第一个挑战就像教一个孩子学骑自行车，你需要提供一个安全稳定的练习环境。现有的方法通常依赖网络上各种现成的工具和API，但这些工具就像脾气不定的老师：有时服务器宕机了，有时访问受限了，有时返回的结果不准确，根本无法提供一致可靠的学习环境。第二个挑战则是如何评判AI是否真的学会了使用工具。传统方法往往需要另一个AI来当"考官"，但这就像让一个学生给另一个学生打分，容易产生偏见和错误。

研究团队的解决方案就像建造了一个完整的"工具使用训练营"。他们首先创建了一套全自动的环境构建系统，这个系统能够自动生成各种工具使用场景，就像一个智能教练能够根据学员的水平设计不同难度的训练项目。这套系统包含五个关键环节：场景分解、文档生成、功能整合、复杂度扩展和本地部署。

在场景分解环节，系统会将复杂的问题拆解成不同类型的子任务。研究团队定义了四种基本场景，就像四种不同的解题思路。单跳场景最简单，就像一步就能解决的问题：查询某部游戏的发布日期。并行单跳场景需要同时处理多个独立问题，比如同时查询今天和明天的油价然后比较。多跳场景需要按顺序解决多个相关问题，就像解谜游戏一样，每一步的答案都是下一步的线索：先查询2022年冬奥会的举办国，再查询该国1937年的首都名称。并行多跳场景最复杂，既包含独立任务又包含连续任务，比如分别查询加拿大和澳大利亚的人口数据，然后计算两者之和。

接下来的文档生成环节就像为每个工具编写详细的使用说明书。系统会自动为每个子问题生成对应的工具文档，明确说明工具的功能、参数和使用方法。这就好比为每把不同的钥匙准备标签，说明它能开哪扇门。

功能整合环节则像整理工具箱一样，将功能重复的工具合并，避免冗余。系统会分析不同工具的功能描述，将作用相似的工具整合成一个更强大的工具，既保持了原有功能，又提高了效率。

复杂度扩展环节是这个系统的巧妙之处。研究团队意识到，如果训练用的工具都太简单，AI就像只会做基础算术题的学生，遇到复杂问题就不会了。因此，系统会通过四种策略增加工具的复杂度：功能泛化让工具能处理更多类型的任务，参数扩展增加更多配置选项，参数类型泛化支持更复杂的数据结构，工具集扩展则添加一些不太重要的工具来增加选择的难度。这就像从教学生使用基础计算器升级到教他们使用科学计算器一样。

最后的本地部署环节确保了所有工具都在本地运行，避免了网络问题和外部服务的不稳定性。每个工具都会被转换成Python函数，并且系统会确保这些函数能够返回正确的结果，就像建立了一个完全可控的实验室环境。

有了稳定的训练环境，下一个关键问题就是如何评估AI的表现。研究团队设计了一套可验证的奖励机制，这套机制就像一位公正严格的考官，能够准确判断AI是否真正掌握了工具使用的技能。

这套奖励机制的核心思想是平衡精确度和完整度。精确度衡量AI调用工具时的准确性，就像评估学生解题步骤是否正确；完整度则检查AI是否解决了所有子问题，就像检查学生是否完成了所有题目。研究团队借鉴了F1评分的思路，将这两个指标结合起来，形成了一个综合评价体系。

具体来说，奖励计算会考虑多个因素：AI总共调用了多少次工具、成功解决了多少个子问题、还有多少问题没有解决、最终答案是否正确。如果AI频繁调用工具但解决问题很少，就像一个人忙忙碌碌却没有成果，奖励就会很低。相反，如果AI能用最少的工具调用解决最多的问题，就会获得高奖励。

更重要的是，这套奖励机制完全基于环境反馈，不需要其他AI模型来评判，避免了评价偏差的问题。就像数学考试有标准答案一样，这套机制能够提供客观准确的评价。

在训练数据收集阶段，系统会让AI在构建好的环境中进行多轮交互，记录每一步的操作、工具调用结果、环境反馈等信息。这个过程就像让学生在练习册上做习题，记录下每一步的思考过程和结果，为后续的改进提供依据。

基于收集到的数据和奖励信号，研究团队采用了基于偏好的强化学习算法来训练模型。这种方法的核心思想是让AI学会区分好的行为和坏的行为，就像训练小朋友通过表扬和批评来形成良好习惯一样。AI会逐渐学会选择那些能获得高奖励的行为模式，避免那些导致低奖励的行为。

研究团队设计了全面的实验来验证这套方法的有效性。他们在自建的数据集上进行了域内测试，同时在ToolHop、τ-bench和RoTBench三个公开数据集上进行了域外测试，就像让学生既做练习册上的题目，又做其他出版社的习题集，全面检验学习效果。

实验结果令人印象深刻。在各种不同规模的语言模型上，这套方法都展现出了显著的改进效果。以7B参数的Qwen2.5模型为例，使用FTRL-GRPO算法训练后，在自建数据集上的综合表现从25.97分提升到了46.78分，提升幅度接近80%。更令人惊喜的是，即使在完全不同的任务上，训练后的模型也表现出了很好的泛化能力。

特别值得注意的是，原本参数量较小的开源模型在经过训练后，甚至能够超越一些大型的商业模型。8B和14B参数的开源模型在训练后的平均表现超过了GPT-4o、Claude-4.0等顶级商业模型，这就像让普通学生通过系统训练战胜了天才学生。

研究团队还发现了一个有趣的现象：目前开源模型的推理模式并不一定比非推理模式更适合工具使用。虽然推理模式在复杂的多步骤任务上表现更好，但在简单的单步任务上反而表现较差。这提示现有的推理机制主要针对数学问题优化，在工具使用场景下的适应性有限，就像专门训练解数学题的学生在实际操作类任务上可能反而不如普通学生。

为了深入理解这套方法为什么有效，研究团队进行了细致的参数分析。他们发现，训练过程主要更新了模型底层的MLP（多层感知器）参数，特别是前几层的参数。这些参数主要负责处理和理解输入信息，这表明训练主要提升了模型的上下文理解能力和基础推理能力，而不是简单的记忆特定模式。

研究团队还验证了奖励机制设计的重要性。他们比较了四种不同的奖励函数：只关注精确度的、只关注完整度的、简单相乘的，以及他们提出的平衡式奖励。结果显示，只关注精确度会导致AI过于保守，很少使用工具；只关注完整度会导致AI滥用工具；简单相乘的方式训练不稳定；只有平衡式奖励能够在精确度和完整度之间找到最佳平衡点。

更令人放心的是，这套训练方法不会损害模型的通用能力。研究团队在六个标准测试集上验证了训练前后模型的表现，包括MMLU（大规模多任务语言理解）、BBH（大语言模型基准测试）、GSM8K和MATH（数学推理）、HumanEval和MBPP（代码能力）。结果显示，训练后的模型在这些通用任务上的表现基本保持稳定，有些甚至略有提升，这证明了方法的安全性。

通过具体案例分析可以更清楚地看到改进效果。比如在一个关于政治继任者的问题中，原始模型由于参数填写不准确导致无法获得正确答案，而训练后的模型能够准确提取问题中的关键信息，正确调用工具并得到准确结果。在另一个关于选举结果的案例中，原始模型在推理模式下反而因为过度思考而选择了错误的参数值，而训练后的模型能够直接准确地识别正确参数并获得正确答案。

这套方法的优势还体现在其通用性上。无论是使用Reinforce++还是GRPO算法进行训练，无论是推理模式还是非推理模式的模型，这套框架都能带来显著改进。这种一致性表明了方法的鲁棒性和广泛适用性。

随着训练的进行，模型表现持续改进。研究团队跟踪了三个训练轮次的表现变化，发现大多数模型在每个轮次都有明显提升，这说明训练策略能够保持足够丰富的探索空间，避免了过拟合问题。

这项研究不仅在技术上取得了突破，更重要的是为AI工具使用训练提供了一个完整的解决方案。从环境构建到奖励设计，从数据收集到模型训练，整套流程都实现了自动化，大大降低了研究和应用的门槛。

说到底，这项研究就像为AI开发了一套完整的"职业培训课程"。通过系统性的训练，AI不再是只会纸上谈兵的书呆子，而是能够灵活运用各种工具解决实际问题的得力助手。更重要的是，这套训练方法不需要依赖昂贵不稳定的外部服务，也不需要人工设计复杂的评价标准，完全实现了自动化训练。

随着这套方法的推广应用，我们可能很快就会看到更多能够真正"动手实践"的AI助手。它们不仅知识丰富，更能够主动调用合适的工具来解决我们在工作和生活中遇到的各种实际问题。这或许标志着AI从"知识存储库"向"实用工具箱"的重要转变，让AI真正成为我们日常生活中不可或缺的智能伙伴。这种转变的意义不仅在于技术进步，更在于为实现真正的通用人工智能迈出了坚实的一步。

Q&A

Q1：这个工具使用训练系统是如何解决现有方法依赖外部服务不稳定的问题的？

A：研究团队开发了一套全自动环境构建系统，能够在本地生成和部署所有工具，完全避免了对外部API和网络服务的依赖。这个系统包括自动生成工具文档、整合功能、扩展复杂度等环节，最终将所有工具转换为本地Python函数，确保训练环境的稳定性和可控性。

Q2：训练后的AI模型会不会只会使用特定工具而失去通用能力？

A：完全不会。研究团队专门在六个标准测试集上验证了模型的通用能力，包括语言理解、数学推理、代码编写等方面。结果显示训练后的模型在这些通用任务上表现基本保持稳定，有些甚至略有提升。参数分析也显示训练主要提升了模型的上下文理解和基础推理能力，而不是简单记忆特定模式。

Q3：普通研究者或开发者能使用这套FTRL训练系统吗？

A：可以的。研究团队已经在GitHub上开源了完整的代码和数据，地址是https://github.com/bytedance/FTRL。这套系统实现了从环境构建到模型训练的全流程自动化，大大降低了使用门槛。研究者可以根据自己的需求定制不同的工具场景和训练任务。

升融配资提示：文章来自网络，不代表本站观点。

玖玖策略语言模型也能学会使用工具了？ByteDance和复旦大学开发全自动训练系统让AI变身万能助手

兴华配资债市公告精选 | 华阳经贸集团涉嫌欺诈发行证券罪；大连机床将依法注销存续债券