Y-Trainer 介绍

Y-Trainer 是一个能够有效避免模型灾难性遗忘和过拟合的训练框架。

首创的NLIRG算法（以下简称Y-Trainer算法）可以实现Token级别动态计算，调整训练梯度，帮助模型再困难样本和简单样本之间，平滑的调整学习强度。

集成了继续预训练(CPT)、指令微调(SFT)和强化学习(RL)三大核心功能。

📊 优势简介

避免灾难遗忘 ：灾难性遗忘通常是由过难语料导致，通过识别这些token，进行动态调整，可有效避免。
防止过拟合 ：过拟合是由相似语料或者模型已经掌握的知识导致，通过识别这些token，进行动态调整，可有效避免过拟合问题。
识别问题语料 ： Y-Trainer算法通过模型内部信号，可以对语料进行质量评分，提早排查错误。
无需通用语料 ：传统的SFT通常需要混合一定比例通用语料，防止模型能力退化，Y-Trainer算法可在只使用垂直领域语料的情况下训练，并取得更好的效果。
无需语料平衡 ：传统的SFT通常需要平和不同语料的分布，我们的Y-Trainer算法，即使在语料分布很不均匀的情况下，依然能够稳定训练。

特性	描述	价值
智能训练优化	内置Y-Trainer算法，根据样本难度动态调整训练强度	提升训练效率，防止过拟合
资源友好	支持LoRA训练和多卡并行，显著降低硬件要求	让更多用户能够训练大模型
易用性强	完整的配置管理和TensorBoard可视化支持	简化训练流程，便于监控
模型兼容性好	支持Qwen等主流大语言模型	灵活适配不同场景需求

功能概述：让模型学会遵循特定指令格式，完成结构化任务，而无需通用语料。

核心优势：

适用任务：问答、摘要、翻译、代码生成、角色扮演等

功能概述：通过领域知识增强，让模型在保持原有能力的同时学习新知识。

适用场景：

技术特点：

功能概述：基于SFT构建的轻量级强化学习框架，让模型通过交互学习最优策略。

技术突破：

传统RL框架：
模型 → 参考模型 → 奖励模型 → 价值网络 → 训练

Y-Trainer RL框架：
模型 → 智能探索 → 自适应训练 → 优化策略

核心优势：

指令微调语料训练顺序调整工具

解决的问题：传统训练中语料顺序随机，影响学习效率

解决方案：

效果：训练效率提升30%+，模型性能更稳定

显存不足时：

追求最佳效果：

💡 提示：详细配置说明请参考配置文档