README.md
April 7, 2026 · View on GitHub
AICOS 项目
AICOS 是算力互联网在人工智能、大模型等应用场景下实现资源管理、推理训练、编排调度、网关接口对接及平台应用服务的调度管控中枢。AICOS提供从底层异构算力统一调度到上层AI应用全生命周期编排的一体化解决方案。
本项目是 AICOS 核心主仓库,是整个AICOS技术体系的核心底座。
架构设计

AICOS 3.0 采用分层解耦的架构设计,分为AI应用编排层、算力调度层、资源管理层和底层资源四大核心层级:
- AI 应用编排层:整合模型引擎、计算引擎、数据引擎、任务触发器四大核心能力,覆盖大模型训练/推理、数据治理全流程,为企业提供一体化AI应用编排能力;
- 算力调度层:提供 CPU/GPU 异构算力统一调度,支持 GPU 池化、虚拟化等能力,增强算力利用率;
- 资源管理层:通过服务器级 / 企业侧两级算力标识网关,实现算力资源统一纳管与全生命周期管理;
- 底层资源层:覆盖GPU/CPU/NPU/云设备/网络/存储全栈硬件,支持RDMA、卡间互联等高性能网络底层资源:兼容 GPU/CPU/NPU 等全类型异构硬件,通过 RDMA、卡间互联提供高性能网络支撑;
功能特性
1、AI 应用编排层
核心定位:AICOS 3.0 的核心业务层,整合四大核心引擎,提供从数据准备、计算支撑到模型推理的全流程编排能力,支撑大模型训练、推理与数据治理等核心场景。
核心组件与能力:
(1)模型引擎
覆盖大模型从接入到推理、训练、监控的全流程,是大模型研发的核心支撑:
-
模型推理:提供实时在线推理(低延迟场景)和批量推理,并支持VLLM推理加速框架适配,优化推理性能。
-
模型训练:集成主流训练方法,支持模型调优,适配大模型定制化训练需求。
-
模型接入与适配:兼容主流开源大模型与自研模型,支持多格式模型接入与适配。
-
模型部署:适配私有化、公有云等多部署形态。
-
模型监控:实时监控模型调用量、失败率等指标,保障模型服务稳定运行。
(2)计算引擎
承接上层 AI 任务的计算调度,实现计算任务的高效执行:
-
多类型任务支撑:适配实时计算、批量推理等多类型计算任务。
-
任务编排与优先级管理:支持任务编排,可配置任务优先级,实现任务的有序执行与资源合理分配。
-
任务下发:将计算任务智能下发至算力调度层,匹配最优算力资源。
(3)数据引擎
提供数据支撑,实现数据全流程管理与 RAG 知识增强:
-
数据接入:支持数据库、文件、API 等多源数据接入,适配异构数据环境。
-
数据标注与清洗:提供数据标注、数据清洗能力,完成训练数据的预处理。
-
知识库增强:支持知识库构建,实现知识的统一管理与更新。
-
RAG 检索能力增强:适配RAG 检索增强能力,支持向量检索,提升大模型推理的准确性与专业性。
(4)任务触发器
实现 AI 应用全流程的自动化触发与调度:
- 支持时间触发(定时执行)、事件触发(任务完成 / 数据到达)、数据触发(满足数据条件),实现数据处理、模型训练、推理部署等环节的自动化流转。
2、算力调度层
核心定位:承接上层 AI 应用编排层的算力任务,实现 CPU/GPU 异构算力的智能调度与高效利用。
核心能力:
-
CPU 算力调度:提供集群管理、应用部署管理、应用资源视图、容器运行时、容器网络、调度策略等能力,支撑容器化应用的全生命周期管理,适配通用计算任务调度。
-
GPU 算力调度:提供 GPU 虚拟化、多卡适配、GPU 池化能力,实现 GPU 算力的池化共享、弹性分配,最大化 GPU 资源利用率,支撑大模型训练、推理等 GPU 密集型任务。
3、资源管理层
核心定位:实现算力资源的统一标识、上报、纳管与全生命周期管理,打通异构算力与上层调度的桥梁。
核心能力:
-
服务器级算力标识网关:通过 agent 采集服务器算力资源状态,对接 CMDB(配置管理数据库),实现单服务器 / 集群级算力的自动上报、实时监控与资产统一管理。
-
企业侧算力标识网关:通过 CMDB 实现企业级算力资产统一管理,结合 HCM 多云资源管理能力,支持跨区域、多云算力的统一纳管与全局治理,适配大型企业 / 智算中心的算力管理需求。
4、底层资源适配能力
核心定位:AICOS 3.0 的硬件与网络基础层,为上层所有能力提供算力、存储、网络的底层支撑。
核心组件:
-
硬件层:全面兼容 GPU、CPU、NPU、云设备、网络设备、存储设备等全类型异构硬件,适配不同厂商的算力环境,支持公有云、私有云、混合云多部署形态。
-
网络与协议层:包含协议栈、卡间互联、RDMA 高性能网络技术,为大模型分布式训练、高并发推理提供低延迟、高带宽的网络保障,最大化算力利用率。
AICOS 3.0技术体系仓库
AICOS3.0 采用微服务架构,由多个专业化代码仓库协同构建,各仓库职责清晰、联动支撑:
-
AICOS(整体项目归纳):负责AICOS能力纳管说明、输出版本更新迭代通知。
-
AICOS-CMDB:资源管理层CMDB能力,负责算力资产配置管理,支持自定义资源纳管及权限管控。
-
AICOS-HCM:资源管理层HCM能力,适配企业级算力标识网关,提升资源效率、规范管理流程。
-
AICOS-BCS:算力调度层容器调度组件,提供复杂AI应用容器化部署、编排及服务治理能力。
AICOS 社区
中国信通院牵头搭建AICOS开源社区,旨在汇聚行业各方力量,发挥协同优势与成员单位创新能力,通过关键技术攻关、行业标准制定、生态体系建设等工作,推动AI云操作系统技术创新与产业升级,助力各行业在人工智能驱动下实现数字化转型与高质量发展。
2025 年 6 月,中国信通院联合天翼云、华为、中科院、移动云、摩尔线程、中国铁塔等单位,在全球计算联盟 GCC 下成立 AI 云操作系统专委会。专委会设立了首届主任委员、轮值主任委员及委员,并成立了专委会管理委员会及 7 大专项工作组,包括学术工作组、应用平台工作组、编排调度引擎工作组、推理训练引擎工作组、资源管理引擎工作组、开源生态工作组和标准化工作组,聚焦 AI 云操作系统的核心技术需求与生态建设。
社区核心工作方向
-
技术体系建设:围绕AI应用编排、算力调度、资源管理及底层资源适配开展技术研究与落地,打造全栈式AI云操作系统技术体系;
-
专项工作研究:联合学术、应用平台、编排调度、推理训练、资源管理、开源生态、标准化等多方位专家,针对性开展技术与生态建设工作;
-
生态协同发展:联合行业内科研机构、云服务商、运营商、智算中心、硬件厂商等多方主体,推动技术成果落地与产业应用,覆盖能源、金融等多行业领域;
-
标准与人才建设:制定AI云操作系统相关行业标准,推动开源生态建设,同时开展人才培育工作,为行业输送专业技术人才,助力产业创新发展。
标准体系建设
AICOS 联合中国信通院从 AI 云操作系统总体架构、架构各层级及兼容性、安全性、可靠性、关键性能方面规划了完善的标准体系,并逐步启动各项标准的编制工作,旨在为产业发展提供统一的规范和指导。本标准体系已设立19项重要标准,目前 《基于 AI 云操作系统的大模型推理加速能力要求》等三项标准已成功立项。
贡献指南
欢迎所有开发者参与AICOS开源社区建设,提交功能特性、修复问题、完善文档。详细贡献规范请查看 CONTRIBUTING.md
注意: main 分支在开发过程中可能处于不稳定状态。请通过 releases 获取稳定版本代码。