强化学习
框架内置的强化学习功能使用方法
强学习的原理
强化学习的原理非常简单,实际上就分为以下几步:
挑选训练任务: 由人工挑选一些工具使用的任务,建议由易到难
生产语料: 由模型自行生成一些语料。
挑选合适的语料: 强化学习框架会自动挑选其中比较合适(评分比较高)的语料。
训练: 强化学习框架会自动使用挑选出的优质语料进行训练。
如何使用 Y-Agent Studio 内置的强化学习功能?
其中 第 ① 步 挑选训练任务 在本框架内完成,其余部分需要使用 Y-Train 训练框架完成。
下面主要讲解如何使用 Y-Agent 内的强化学习功能。
首先强化学习界面分成两个页签:第一个是训练任务页签,第二个是奖励函数页签。
奖励函数的主要作用是针对任务中使用的工具进行评估。
系统要求为每个使用的工具编写对应的奖励函数。框架已内置了部分常用工具的奖励函数,若您使用的是系统内置工具,可直接应用这些预设函数;
若您使用的是自定义添加的工具,则需要自行编写相应的奖励函数。
此外,奖励函数也可以通过流程的方式来实现。
当页面导出训练任务的时候,系统会自动检查所有任务是否有奖励函数。
如果发现有的任务没有匹配合适的奖励函数,则会提醒。因为没有奖励函数的任务是没有办法强化学习的。
如何训练模型?
请参考:如何训练模型?
How is this guide?
最后更新