未来
开发计划和未来规划
开发计划
功能 | 开发计划 | 原因 |
---|---|---|
多语化 | 暂无 | 意义不大 |
reranker | 无 | 对文档检索意义不大,多用于推荐系统 |
function call | 无 | 本身就没啥意义,又是淘汰的技术 |
系统提示词 | 无 | 提示词写在哪里区别不大 |
对轮对话模板 | 无 | 写在一起和使用对话模板区别不大 |
多模态模型 | 开发中 | |
memory | 待定 | 这个很重要,但是还没有好的方案,Y-Retriever 模块突破后,这个就好做了 |
人类节点 | 待定 | 没想好业务需求 |
提示词差异比较 | 待定 | 目前看不太重要 |
LangExtract | 待定 | |
MinerU | 待定 |
未来规划
经过一年多的开发和探索,我们解决了以下问题:
-
有向有环的复杂流程处理:参考我们人类团队协作的场景,既可能有固定的流程,有可能再某些节点需要自主选择下游,同时还可能驳回给上游节点。
-
领域知识微调:领域知识的格式非常固定,经常会造成模型过拟合,知识遗忘等问题,我们的方法可以有效地解决这些问题,并且无需再做语料配比。
-
强化学习的训练:虽然已经有很多强化学习框架,但是通常都比较复杂消耗资源,我们的方法理论上只需要加载一个基础模型即可,简单易用。
-
模型预训练知识不足分析:通过对注意力的分析,实现了一套算法,可以识别出基础模型对哪些知识点缺少知识,从而方便后续的语料生产,这对领域知识尤为重要。
-
语料质量评分:通过算法,识别出语料质量,从而对语料进行质量评分,过滤掉质量差的语料,同时可以由易到难的训练模型。
不足与未来计划
-
知识召回:这一直是业内的难题,我们希望重新设计一个框架 Y-Retriever ,能够根据语义召回相关的文档,同时能够覆盖两跳的问题。
-
长距离的知识不足问题:上面提到的
模型预训练知识不足分析
,目前只能分析短语名词等知识,无法解决长距离依赖的知识关联问题识别,我们将会研究其他方案。 -
扩展支持不足:Y-Trainer、Y-Squeeze只支持 Qwen 2.5的模型,理论上也支持Qwen 3.0的非moe模型,更多的模型暂时没有人手和精力去适配。
计划
我们团队开源本框架的主要原因,希望过社区的力量,尽快扩展生态,让这个框架更通用。
另外我们还希望能够通过开源社区,寻求一些商业客户,增加团队的收入,以便于扩大团队,开展更有价值的项目。
最终,我们将进行基础模型研究,因为无论如何设计流程、编写提示词、组织语料训练,模型也很难稳定的完成任务。
这是现有模型架构的制约,本质上是模型没有真正的理解能力,和内部思考过程。
因此,我们希望通过开源,寻求一些商业客户,创造利润,同时吸引一些优秀的开发者加入我们,一起解决这个问题。
How is this guide?
最后更新