模型配置

支持的模型

这包括但不限于本地Ollama、vLLM、Xinference部署的私有模型如 Llama 3 和 Qwen 2等，

国内提供的公共模型服务例如 DeepSeek、SILICONFLOW、Kimi、智谱 AI 和百度千帆、讯飞星火、通义千问，

以及国际知名的公共模型服务如 OpenAI、Azure OpenAI、Anthropic 和 Gemini 等。

接入方式我们适配了OpenAI、Ollama、ZhipuAI等SDK，建议使用OpenAI的方式接入。

Y-Agent 已支持的 Embedding 模型接口规范可以在[系统配置]-[Embedding]配置项选择vllm、xinference接入方式，建议使用vllm方式。

对于排序算法、语音识别、语音合成、图像生成、视频生成等模型的集成，目前尚未集成。

导航：系统菜单中找到模型配置，进入后展示系统已经配置的所有模型，单击新增按钮，来新建一个新的模型。

alt

添加模型时相关配置说明：

文本模型：用于处理和理解文本数据的AI模型能够进行文本生成、理解、翻译、摘要等任务。

视觉模型：用于处理和理解图像/视频数据的AI模型能够进行图像识别、目标检测、图像生成等任务。

根据实际模型的类型选择配置。

例如：

智谱API地址：https://open.bigmodel.cn/api/paas/v4

千问API地址：https://dashscope.aliyuncs.com/compatible-mode/v1

火山API地址：https://ark.cn-beijing.volces.com/api/v3

本地vllm地址：http://192.168.50.225:8000/v1/

APIKEY：需要去对应模型开放平台申请，本地模型不需要APIKEY时可以留空。

模型接口格式：平台适配了OpenAI、Ollama、ZhipuAI等SDK，建议使用OpenAI的方式接入
温度：模型温度是生成式AI模型中的一个重要参数，用于控制模型输出文本的随机性和创造性程度，0~1之间的数字，值越大随机性越大。
超时时间：模型的超时时间（Timeout）是指在模型处理请求时，系统设定的最大等待时间。如果模型在规定时间内未能完成处理并返回结果，系统将中断该请求并返回超时错误。
最大输出token：最大输出 Token 是指在生成式 AI 模型中，单次响应所允许生成的最大 Token 数量。Token 是文本处理的基本单位，可以是一个词、一个子词或一个字符，具体取决于所使用的分词器（Tokenizer）。