Y-Agent Studio

强化学习

框架内置的强化学习功能使用方法

强学习的原理

强化学习的原理非常简单,实际上就分为以下几步:

挑选训练任务: 由人工挑选一些工具使用的任务,建议由易到难

生产语料: 由模型自行生成一些语料。

挑选合适的语料: 强化学习框架会自动挑选其中比较合适(评分比较高)的语料。

训练: 强化学习框架会自动使用挑选出的优质语料进行训练。

如何使用 Y-Agent Studio 内置的强化学习功能?

其中 第 ① 步 挑选训练任务 在本框架内完成,其余部分需要使用 Y-Train 训练框架完成。

下面主要讲解如何使用 Y-Agent 内的强化学习功能。

首先强化学习界面分成两个页签:第一个是训练任务页签,第二个是奖励函数页签。

奖励函数的主要作用是针对任务中使用的工具进行评估。

系统要求为每个使用的工具编写对应的奖励函数。框架已内置了部分常用工具的奖励函数,若您使用的是系统内置工具,可直接应用这些预设函数;

若您使用的是自定义添加的工具,则需要自行编写相应的奖励函数。

此外,奖励函数也可以通过流程的方式来实现。

当页面导出训练任务的时候,系统会自动检查所有任务是否有奖励函数。

如果发现有的任务没有匹配合适的奖励函数,则会提醒。因为没有奖励函数的任务是没有办法强化学习的。

如何训练模型?

请参考:如何训练模型?

How is this guide?

最后更新

京ICP备2025145222号-1     © Copyright 向量感知(北京)智能科技有限公司 YAFO 2025.