README.md

April 7, 2026 · View on GitHub

AICOS 项目

AICOS 是算力互联网在人工智能、大模型等应用场景下实现资源管理、推理训练、编排调度、网关接口对接及平台应用服务的调度管控中枢。AICOS提供从底层异构算力统一调度到上层AI应用全生命周期编排的一体化解决方案。

本项目是 AICOS 核心主仓库,是整个AICOS技术体系的核心底座。

架构设计

AICOS3.0开源项目架构图

AICOS 3.0 采用分层解耦的架构设计,分为AI应用编排层、算力调度层、资源管理层和底层资源四大核心层级:

  • AI 应用编排层:整合模型引擎、计算引擎、数据引擎、任务触发器四大核心能力,覆盖大模型训练/推理、数据治理全流程,为企业提供一体化AI应用编排能力;
  • 算力调度层:提供 CPU/GPU 异构算力统一调度,支持 GPU 池化、虚拟化等能力,增强算力利用率;
  • 资源管理层:通过服务器级 / 企业侧两级算力标识网关,实现算力资源统一纳管与全生命周期管理;
  • 底层资源层:覆盖GPU/CPU/NPU/云设备/网络/存储全栈硬件,支持RDMA、卡间互联等高性能网络底层资源:兼容 GPU/CPU/NPU 等全类型异构硬件,通过 RDMA、卡间互联提供高性能网络支撑;

功能特性

1、AI 应用编排层

核心定位:AICOS 3.0 的核心业务层,整合四大核心引擎,提供从数据准备、计算支撑到模型推理的全流程编排能力,支撑大模型训练、推理与数据治理等核心场景。

核心组件与能力:

(1)模型引擎

覆盖大模型从接入到推理、训练、监控的全流程,是大模型研发的核心支撑:

  • 模型推理:提供实时在线推理(低延迟场景)和批量推理,并支持VLLM推理加速框架适配,优化推理性能。

  • 模型训练:集成主流训练方法,支持模型调优,适配大模型定制化训练需求。

  • 模型接入与适配:兼容主流开源大模型与自研模型,支持多格式模型接入与适配。

  • 模型部署:适配私有化、公有云等多部署形态。

  • 模型监控:实时监控模型调用量、失败率等指标,保障模型服务稳定运行。

(2)计算引擎

承接上层 AI 任务的计算调度,实现计算任务的高效执行:

  • 多类型任务支撑:适配实时计算、批量推理等多类型计算任务。

  • 任务编排与优先级管理:支持任务编排,可配置任务优先级,实现任务的有序执行与资源合理分配。

  • 任务下发:将计算任务智能下发至算力调度层,匹配最优算力资源。

(3)数据引擎

提供数据支撑,实现数据全流程管理与 RAG 知识增强:

  • 数据接入:支持数据库、文件、API 等多源数据接入,适配异构数据环境。

  • 数据标注与清洗:提供数据标注、数据清洗能力,完成训练数据的预处理。

  • 知识库增强:支持知识库构建,实现知识的统一管理与更新。

  • RAG 检索能力增强:适配RAG 检索增强能力,支持向量检索,提升大模型推理的准确性与专业性。

(4)任务触发器

实现 AI 应用全流程的自动化触发与调度:

  • 支持时间触发(定时执行)、事件触发(任务完成 / 数据到达)、数据触发(满足数据条件),实现数据处理、模型训练、推理部署等环节的自动化流转。

2、算力调度层

核心定位:承接上层 AI 应用编排层的算力任务,实现 CPU/GPU 异构算力的智能调度与高效利用。

核心能力:

  • CPU 算力调度:提供集群管理、应用部署管理、应用资源视图、容器运行时、容器网络、调度策略等能力,支撑容器化应用的全生命周期管理,适配通用计算任务调度。

  • GPU 算力调度:提供 GPU 虚拟化、多卡适配、GPU 池化能力,实现 GPU 算力的池化共享、弹性分配,最大化 GPU 资源利用率,支撑大模型训练、推理等 GPU 密集型任务。

3、资源管理层

核心定位:实现算力资源的统一标识、上报、纳管与全生命周期管理,打通异构算力与上层调度的桥梁。

核心能力:

  • 服务器级算力标识网关:通过 agent 采集服务器算力资源状态,对接 CMDB(配置管理数据库),实现单服务器 / 集群级算力的自动上报、实时监控与资产统一管理。

  • 企业侧算力标识网关:通过 CMDB 实现企业级算力资产统一管理,结合 HCM 多云资源管理能力,支持跨区域、多云算力的统一纳管与全局治理,适配大型企业 / 智算中心的算力管理需求。

4、底层资源适配能力

核心定位:AICOS 3.0 的硬件与网络基础层,为上层所有能力提供算力、存储、网络的底层支撑。

核心组件:

  • 硬件层:全面兼容 GPU、CPU、NPU、云设备、网络设备、存储设备等全类型异构硬件,适配不同厂商的算力环境,支持公有云、私有云、混合云多部署形态。

  • 网络与协议层:包含协议栈、卡间互联、RDMA 高性能网络技术,为大模型分布式训练、高并发推理提供低延迟、高带宽的网络保障,最大化算力利用率。

AICOS 3.0技术体系仓库

AICOS3.0 采用微服务架构,由多个专业化代码仓库协同构建,各仓库职责清晰、联动支撑:

  • AICOS(整体项目归纳):负责AICOS能力纳管说明、输出版本更新迭代通知。

  • AICOS-CMDB:资源管理层CMDB能力,负责算力资产配置管理,支持自定义资源纳管及权限管控。

  • AICOS-HCM:资源管理层HCM能力,适配企业级算力标识网关,提升资源效率、规范管理流程。

  • AICOS-BCS:算力调度层容器调度组件,提供复杂AI应用容器化部署、编排及服务治理能力。

AICOS 社区

中国信通院牵头搭建AICOS开源社区,旨在汇聚行业各方力量,发挥协同优势与成员单位创新能力,通过关键技术攻关、行业标准制定、生态体系建设等工作,推动AI云操作系统技术创新与产业升级,助力各行业在人工智能驱动下实现数字化转型与高质量发展。

2025 年 6 月,中国信通院联合天翼云、华为、中科院、移动云、摩尔线程、中国铁塔等单位,在全球计算联盟 GCC 下成立 AI 云操作系统专委会。专委会设立了首届主任委员、轮值主任委员及委员,并成立了专委会管理委员会及 7 大专项工作组,包括学术工作组、应用平台工作组、编排调度引擎工作组、推理训练引擎工作组、资源管理引擎工作组、开源生态工作组和标准化工作组,聚焦 AI 云操作系统的核心技术需求与生态建设。

社区核心工作方向

  • 技术体系建设:围绕AI应用编排、算力调度、资源管理及底层资源适配开展技术研究与落地,打造全栈式AI云操作系统技术体系;

  • 专项工作研究:联合学术、应用平台、编排调度、推理训练、资源管理、开源生态、标准化等多方位专家,针对性开展技术与生态建设工作;

  • 生态协同发展:联合行业内科研机构、云服务商、运营商、智算中心、硬件厂商等多方主体,推动技术成果落地与产业应用,覆盖能源、金融等多行业领域;

  • 标准与人才建设:制定AI云操作系统相关行业标准,推动开源生态建设,同时开展人才培育工作,为行业输送专业技术人才,助力产业创新发展。

标准体系建设

AICOS 联合中国信通院从 AI 云操作系统总体架构、架构各层级及兼容性、安全性、可靠性、关键性能方面规划了完善的标准体系,并逐步启动各项标准的编制工作,旨在为产业发展提供统一的规范和指导。本标准体系已设立19项重要标准,目前 《基于 AI 云操作系统的大模型推理加速能力要求》等三项标准已成功立项。

贡献指南

欢迎所有开发者参与AICOS开源社区建设,提交功能特性、修复问题、完善文档。详细贡献规范请查看 CONTRIBUTING.md

注意: main 分支在开发过程中可能处于不稳定状态。请通过 releases 获取稳定版本代码。