跳到主要内容

模型部署

关于部署

模型部署可以将个人公开模型或私有模型部署在GPU实例上,并可设置自动扩缩容的范围。相比于公开模型 API 直接调用,部署服务更加稳定高效,将按请求量大小自动调整算力资源,同时提供部署服务的运行监控,方便随时掌握部署服务运行状态。

创建部署

访问 我的部署 页面,点击【创建部署】,进入部署创建页面。

填写基本信息

  • 填写部署名称,支持字母、数字、破折线(-)和英文句号(.)
  • 选择要部署的模型名称和版本,可选私有模型或公开模型。您可在之后随时更改对应的版本。
  • 注:官方的公开模型不支持部署。

配置自动扩缩容

配置模型部署的实例类型,指定单个实例的GPU数量,以及实例的自动扩缩容范围。

  • 填写0-0时,此时部署服务不会运行,不会产生计费;
  • 填写0-n时(n>0),此时部署服务将根据请求量在0-n之间自动扩缩容实例数量,并按照实例数量以及时长进行计费;该方式模型可能存在冷启动的情况,系统每10分钟检测到前10分钟请求量为0时,实例数量将会归0,下次新的请求产生时,模型服务将有一个启动的过程。
  • 填写n-m时,此时模型最小实例数为n,模型始终处于热启动状态,任何请求将不会有模型启动的等待时长。

管理部署

访问【我的部署】查看部署列表,展示部署服务的名称、运行中的实例数量。

查看详情信息

点击部署服务进入详情页面,可查看模型部署的体验区、API说明、运行记录

修改部署

在【设置】面板修改部署服务的配置,包括名称、模型版本以及硬件配置。

禁用部署

点击【禁用此部署】,确认后该部署服务将停止运行,并不会继续产生计费。适用于临时调整部署服务的配置信息,或暂停该部署服务。每次禁用操作预计在1min后生效。

删除部署

点击【删除部署】,将部署服务彻底删除,服务无法恢复,请谨慎操作。