跳到主要内容

模型部署

关于部署

模型部署可以将个人公开模型或私有模型部署在GPU实例上，并可设置自动扩缩容的范围。相比于公开模型 API 直接调用，部署服务更加稳定高效，将按请求量大小自动调整算力资源，同时提供部署服务的运行监控，方便随时掌握部署服务运行状态。

创建部署

访问我的部署页面，点击【创建部署】，进入部署创建页面。

填写基本信息

填写部署名称，支持字母、数字、破折线(-)和英文句号(.)
选择要部署的模型名称和版本，可选私有模型或公开模型。您可在之后随时更改对应的版本。
注：官方的公开模型不支持部署。

配置自动扩缩容

配置模型部署的实例类型，指定单个实例的GPU数量，以及实例的自动扩缩容范围。

填写0-0时，此时部署服务不会运行，不会产生计费；
填写0-n时(n>0)，此时部署服务将根据请求量在0-n之间自动扩缩容实例数量，并按照实例数量以及时长进行计费；该方式模型可能存在冷启动的情况，系统每10分钟检测到前10分钟请求量为0时，实例数量将会归0，下次新的请求产生时，模型服务将有一个启动的过程。
填写n-m时，此时模型最小实例数为n，模型始终处于热启动状态，任何请求将不会有模型启动的等待时长。

管理部署

访问【我的部署】查看部署列表，展示部署服务的名称、运行中的实例数量。

查看详情信息

点击部署服务进入详情页面，可查看模型部署的体验区、API说明、运行记录

修改部署

在【设置】面板修改部署服务的配置，包括名称、模型版本以及硬件配置。

禁用部署

点击【禁用此部署】，确认后该部署服务将停止运行，并不会继续产生计费。适用于临时调整部署服务的配置信息，或暂停该部署服务。每次禁用操作预计在1min后生效。

删除部署

点击【删除部署】，将部署服务彻底删除，服务无法恢复，请谨慎操作。

关于部署
创建部署
- 填写基本信息
- 配置自动扩缩容
管理部署