Y-Agent Studio

Y-Trainer 介绍

Y-Trainer 训练框架介绍

Y-Trainer 介绍 (计划10月开源)

Y-Trainer 是一个旨在增强Y-Agent基础模型能力的大模型训练框架,该框架包含继续预训练(CPT)、指令微调(SFT)、强化学习(RL)三个部分:

计划:10月开源

CPT:继续预训练

支持切块与非切块的模型预训练方法,可高效利用训练数据提升模型在指定领域的能力。

SFT:指令微调

不同于传统SFT,我们使用自研训练方法,达到如下效果

  1. 限制了语料中错误知识的影响,尽量保留了基础模型的能力。

  2. 自动识别语料难度按从易到难训练模型,提高了模型的学习效果。

  3. 无需做数据集平衡,快速收敛。同时几乎不会破坏模型原有能力。

RL:强化学习

全新的强化学习框架,基于SFT,有以下优点:

资源需求少:不需要参考模型、奖励模型、价值网络model等,只需要合理编写奖励函数,即可完成训练。

训练稳定:通过高熵token作为分支节点,自动产生语料树,再使用内置的聚类算法,进行剪枝,保证探索充分。结合自适应梯度计算,训练过程稳定可靠。

How is this guide?

最后更新

京ICP备2025145222号-1     © Copyright 向量感知(北京)智能科技有限公司 YAFO 2025.