自动生成训练数据
自动化分析并生成训练数据
什么时候需要自动生成训练数据?
当我们需要训练专有领域知识的时候,需要训练数据。但是,手动编写训练数据成本非常高,且容易出错。因此,我们需要自动化生成训练数据。
自动生成训练数据的方法
如何识别需要哪些领域知识?
首先,我们需要识别出我们需要训练的领域知识。
人工方式分析:通过审查流程日志,通过分析模型的输出,发现模型在回答问题时,存在哪些知识点不足。 通常表现为逻辑不对、对给出的文档理解不深刻、对问题理解不透彻。
自动化分析:借助套件内的 Y-Squeeze 框架,可以自动分析出模型在处理问题时,缺少的领域知识。
Y-Squeeze 框架的使用方法(10月开源此功能)
可用于分析的数据来源,通常有以下几方面:
- 日志:日志记录中包含了,用户的问题,和聊天记录,里面会提到很多概念和名词,这些概念和名词就是我们需要训练的领域知识。
- 知识库:知识库文档中存储了领域知识,里面也提到了很多概念和名词。
拿到上面的数据,依然无法确定模型是否了解里面的知识点。(通常直接问模型,是否了解里面的知识点,模型会回答知道。但是其实无法解释其中的概念和名词。)
于是我们可以将领域知识的文本,直接输入到 Y-Squeeze 框架中,该框架可以通过算法自动识别出,模型欠缺的知识点。
How is this guide?
最后更新