Y-Agent Studio

自动生成训练数据

自动化分析并生成训练数据

什么时候需要自动生成训练数据?

当我们需要训练专有领域知识的时候,需要训练数据。但是,手动编写训练数据成本非常高,且容易出错。因此,我们需要自动化生成训练数据。

自动生成训练数据的方法

如何识别需要哪些领域知识?

首先,我们需要识别出我们需要训练的领域知识。

人工方式分析:通过审查流程日志,通过分析模型的输出,发现模型在回答问题时,存在哪些知识点不足。 通常表现为逻辑不对、对给出的文档理解不深刻、对问题理解不透彻。

自动化分析:借助套件内的 Y-Squeeze 框架,可以自动分析出模型在处理问题时,缺少的领域知识。

Y-Squeeze 框架的使用方法(10月开源此功能)

可用于分析的数据来源,通常有以下几方面:

  1. 日志:日志记录中包含了,用户的问题,和聊天记录,里面会提到很多概念和名词,这些概念和名词就是我们需要训练的领域知识。
  2. 知识库:知识库文档中存储了领域知识,里面也提到了很多概念和名词。

拿到上面的数据,依然无法确定模型是否了解里面的知识点。(通常直接问模型,是否了解里面的知识点,模型会回答知道。但是其实无法解释其中的概念和名词。)

于是我们可以将领域知识的文本,直接输入到 Y-Squeeze 框架中,该框架可以通过算法自动识别出,模型欠缺的知识点。

如何生成训练数据?

我们可以通过搭建一个工作流,使用大模型和联网搜索工具,自动生成训练数据。

后续补充案例。

How is this guide?

最后更新

京ICP备2025145222号-1     © Copyright 向量感知(北京)智能科技有限公司 YAFO 2025.