什么是大模型服务平台¶

大模型服务平台是一个专为企业级用户打造的综合性人工智能模型服务管理平台，旨在解决企业在大模型应用过程中所面临的一系列核心挑战，包括模型部署的复杂性、模型选择的困难性、运行稳定性不足以及潜在的安全风险等。通过提供从模型部署到运维管理的全生命周期服务，该平台能够帮助企业和开发者高效地接入和使用各类大模型能力，从而加速企业数字化转型和智能化升级的进程。

功能特性

一键部署与简化运维
- 图形化界面与 API 双支持：提供直观的 Web 界面和完整的 API 接口
- 模型一键部署：支持主流大模型分钟级快速上线
- 动态推理后端：支持 vLLM、SGLang 等多种推理引擎
- 实时扩缩容：根据业务需求灵活调整实例数量
- 多地域部署：支持按需选择部署地域，就近服务
流量治理与稳定性保障
- 智能流量策略引擎：基于权重、QPS限制等多维度流量控制
- 多层限流机制：
  - 全局限流：控制整体平台负载
  - API Key 限流：精细化管理不同应用访问频次
  - 租户级限流：企业级用户独立限流保障
分布式推理能力
- 多机多卡部署：支持 DeepSeek、GLM 等超大参数模型
- 异构 GPU 支持：兼容 NVIDIA、壁仞、沐曦、昇腾等多种GPU
- 负载均衡策略：
  - 轮询策略：流量均匀分配
  - 随机策略：快速分散请求
  - 权重策略：基于权重分配策略
精准计费与统计
- Token 精确计量：支持主流大模型的计费逻辑
- 多维度统计：
  - 调用总量、输入/输出 Token 统计
  - 按 API Key、模型类型、时间维度筛选
多模态统一管理
- 模型广场：提供文本、图像等各类模型的展示与介绍
- 模型对比体验：一次输入，多模型同步响应对比
- API 调用示例：提供丰富的 Demo 和接入文档

普通视图和运维管理使用逻辑¶

本平台通过“运维管理视图 + 普通用户视图”协同配合，实现模型的统一管理、试用体验和快速部署。如下图所示，模型的使用流程主要分为 三个步骤 + 模型文件下载

平台使用流程

1️⃣ 模型广场管理：添加并上线模型¶

运维管理：
- 在 模型广场管理 中导入或创建模型。
- 模型上线后，自动同步到用户视图。
用户普通视图：
- 在 模型广场 中可浏览已上线的模型，作为后续体验或部署的入口。

2️⃣ Maas 模型管理：配置模型试用服务¶

运维管理：
- 将模型设置为 MaaS模型，配置其试用运行环境。
用户普通视图：
- 在 模型体验 中选择配置好的模型进行在线试用，无需本地部署。

3️⃣ 模型部署管理：配置模型部署参数¶

运维管理：
- 在 模型部署管理 中，为模型创建资源和环境的部署配置文件，如 GPU/内存/运行框架等。
用户普通视图：
- 在 模型部署 页面中，选择模型快速完成部署。
- 简化操作流程，无需手动填写复杂参数。

4️⃣ 模型文件下载：支持部署的底层基础¶

需由运维人员将模型文件下载到指定位置