README.md

April 7, 2026 · View on GitHub

AICOS 项目

AICOS 是算力互联网在人工智能、大模型等应用场景下实现资源管理、推理训练、编排调度、网关接口对接及平台应用服务的调度管控中枢。AICOS提供从底层异构算力统一调度到上层AI应用全生命周期编排的一体化解决方案。

本项目是 AICOS 核心主仓库，是整个AICOS技术体系的核心底座。

架构设计

AICOS3.0开源项目架构图

AICOS 3.0 采用分层解耦的架构设计，分为AI应用编排层、算力调度层、资源管理层和底层资源四大核心层级：

AI 应用编排层：整合模型引擎、计算引擎、数据引擎、任务触发器四大核心能力，覆盖大模型训练/推理、数据治理全流程，为企业提供一体化AI应用编排能力；
算力调度层：提供 CPU/GPU 异构算力统一调度，支持 GPU 池化、虚拟化等能力，增强算力利用率；
资源管理层：通过服务器级 / 企业侧两级算力标识网关，实现算力资源统一纳管与全生命周期管理；
底层资源层：覆盖GPU/CPU/NPU/云设备/网络/存储全栈硬件，支持RDMA、卡间互联等高性能网络底层资源：兼容 GPU/CPU/NPU 等全类型异构硬件，通过 RDMA、卡间互联提供高性能网络支撑；

功能特性

1、AI 应用编排层

核心定位：AICOS 3.0 的核心业务层，整合四大核心引擎，提供从数据准备、计算支撑到模型推理的全流程编排能力，支撑大模型训练、推理与数据治理等核心场景。

核心组件与能力：

（1）模型引擎

覆盖大模型从接入到推理、训练、监控的全流程，是大模型研发的核心支撑：

模型推理：提供实时在线推理（低延迟场景）和批量推理，并支持VLLM推理加速框架适配，优化推理性能。
模型训练：集成主流训练方法，支持模型调优，适配大模型定制化训练需求。
模型接入与适配：兼容主流开源大模型与自研模型，支持多格式模型接入与适配。
模型部署：适配私有化、公有云等多部署形态。
模型监控：实时监控模型调用量、失败率等指标，保障模型服务稳定运行。

（2）计算引擎

承接上层 AI 任务的计算调度，实现计算任务的高效执行：

多类型任务支撑：适配实时计算、批量推理等多类型计算任务。
任务编排与优先级管理：支持任务编排，可配置任务优先级，实现任务的有序执行与资源合理分配。
任务下发：将计算任务智能下发至算力调度层，匹配最优算力资源。

（3）数据引擎

提供数据支撑，实现数据全流程管理与 RAG 知识增强：

数据接入：支持数据库、文件、API 等多源数据接入，适配异构数据环境。
数据标注与清洗：提供数据标注、数据清洗能力，完成训练数据的预处理。
知识库增强：支持知识库构建，实现知识的统一管理与更新。
RAG 检索能力增强：适配RAG 检索增强能力，支持向量检索，提升大模型推理的准确性与专业性。

（4）任务触发器

实现 AI 应用全流程的自动化触发与调度：

支持时间触发（定时执行）、事件触发（任务完成 / 数据到达）、数据触发（满足数据条件），实现数据处理、模型训练、推理部署等环节的自动化流转。

2、算力调度层

核心定位：承接上层 AI 应用编排层的算力任务，实现 CPU/GPU 异构算力的智能调度与高效利用。

核心能力：

CPU 算力调度：提供集群管理、应用部署管理、应用资源视图、容器运行时、容器网络、调度策略等能力，支撑容器化应用的全生命周期管理，适配通用计算任务调度。
GPU 算力调度：提供 GPU 虚拟化、多卡适配、GPU 池化能力，实现 GPU 算力的池化共享、弹性分配，最大化 GPU 资源利用率，支撑大模型训练、推理等 GPU 密集型任务。

3、资源管理层

核心定位：实现算力资源的统一标识、上报、纳管与全生命周期管理，打通异构算力与上层调度的桥梁。

核心能力：

服务器级算力标识网关：通过 agent 采集服务器算力资源状态，对接 CMDB（配置管理数据库），实现单服务器 / 集群级算力的自动上报、实时监控与资产统一管理。
企业侧算力标识网关：通过 CMDB 实现企业级算力资产统一管理，结合 HCM 多云资源管理能力，支持跨区域、多云算力的统一纳管与全局治理，适配大型企业 / 智算中心的算力管理需求。

4、底层资源适配能力

核心定位：AICOS 3.0 的硬件与网络基础层，为上层所有能力提供算力、存储、网络的底层支撑。

核心组件：

硬件层：全面兼容 GPU、CPU、NPU、云设备、网络设备、存储设备等全类型异构硬件，适配不同厂商的算力环境，支持公有云、私有云、混合云多部署形态。
网络与协议层：包含协议栈、卡间互联、RDMA 高性能网络技术，为大模型分布式训练、高并发推理提供低延迟、高带宽的网络保障，最大化算力利用率。

AICOS 3.0技术体系仓库

AICOS3.0 采用微服务架构，由多个专业化代码仓库协同构建，各仓库职责清晰、联动支撑：

AICOS（整体项目归纳）：负责AICOS能力纳管说明、输出版本更新迭代通知。
AICOS-CMDB：资源管理层CMDB能力，负责算力资产配置管理，支持自定义资源纳管及权限管控。
AICOS-HCM：资源管理层HCM能力，适配企业级算力标识网关，提升资源效率、规范管理流程。
AICOS-BCS：算力调度层容器调度组件，提供复杂AI应用容器化部署、编排及服务治理能力。

AICOS 社区

中国信通院牵头搭建AICOS开源社区，旨在汇聚行业各方力量，发挥协同优势与成员单位创新能力，通过关键技术攻关、行业标准制定、生态体系建设等工作，推动AI云操作系统技术创新与产业升级，助力各行业在人工智能驱动下实现数字化转型与高质量发展。

2025 年 6 月，中国信通院联合天翼云、华为、中科院、移动云、摩尔线程、中国铁塔等单位，在全球计算联盟 GCC 下成立 AI 云操作系统专委会。专委会设立了首届主任委员、轮值主任委员及委员，并成立了专委会管理委员会及 7 大专项工作组，包括学术工作组、应用平台工作组、编排调度引擎工作组、推理训练引擎工作组、资源管理引擎工作组、开源生态工作组和标准化工作组，聚焦 AI 云操作系统的核心技术需求与生态建设。

社区核心工作方向

技术体系建设：围绕AI应用编排、算力调度、资源管理及底层资源适配开展技术研究与落地，打造全栈式AI云操作系统技术体系；
专项工作研究：联合学术、应用平台、编排调度、推理训练、资源管理、开源生态、标准化等多方位专家，针对性开展技术与生态建设工作；
生态协同发展：联合行业内科研机构、云服务商、运营商、智算中心、硬件厂商等多方主体，推动技术成果落地与产业应用，覆盖能源、金融等多行业领域；
标准与人才建设：制定AI云操作系统相关行业标准，推动开源生态建设，同时开展人才培育工作，为行业输送专业技术人才，助力产业创新发展。

标准体系建设

AICOS 联合中国信通院从 AI 云操作系统总体架构、架构各层级及兼容性、安全性、可靠性、关键性能方面规划了完善的标准体系，并逐步启动各项标准的编制工作，旨在为产业发展提供统一的规范和指导。本标准体系已设立19项重要标准，目前《基于 AI 云操作系统的大模型推理加速能力要求》等三项标准已成功立项。

贡献指南

欢迎所有开发者参与AICOS开源社区建设，提交功能特性、修复问题、完善文档。详细贡献规范请查看 CONTRIBUTING.md

注意: main 分支在开发过程中可能处于不稳定状态。请通过 releases 获取稳定版本代码。