Paper PPT Agent

June 8, 2026 · View on GitHub

上传论文,AI 自动生成演示文稿

AGPL-3.0 License Python FastAPI React TypeScript uv

中文 | English


基于多智能体协作的学术论文演示文稿自动生成工具。上传论文 PDF 或 TeX 源码,由 AI 完成内容提炼、结构规划、版式设计与视觉质量审查,最终输出可编辑的 PowerPoint 文件。

screenshot

目录


✨ 功能亮点

功能说明
多智能体流水线Strategist → Executor → Critic 三阶段协作,内容提炼与版式生成一体化
Agent 生成模式工作台支持 Claude Code / Codex 本机 Agent 运行时生成演示文稿
静态 + 视觉 QA自动检测文字溢出、元素重叠、低对比度等问题并触发修复
图标语义匹配基于 Gemini Embedding 的 RAG 语义搜索,自动匹配最合适的图标
反馈迭代指定单页或全量重生成,支持结构调整(增删插排),自动版本快照
实时可观测Agent 日志流、Token 用量聚合、Critic 逐页详情面板
多语言支持中英双语及自定义语言输出
多模型OpenAI / Anthropic / Gemini / DeepSeek 及自定义兼容接口
模板导入支持 PPTX 直接导入为五页模板,也支持基于 Claude Code 的 Agent 模式自动分析、模板化与预览
PPT 编辑器内置基于 PPTist 的可视化编辑器,支持结果页和模板导入页中直接调整页面、备注、字体与导出
Deep Research外部研究增强(arXiv / Semantic Scholar / Web),相关性自动过滤

📸 效果展示

生成流程

⚙️ 环境要求

依赖版本
🐍 Python3.11+
📦 uvlatest
🟢 Node.js18+

至少一种模型提供商的 API Key:OpenAI / Anthropic / Gemini / DeepSeek 或自定义 BaseURL 兼容接口。

可选:使用工作台的 Agent 生成模式前,需要在本机安装并配置好 Claude Code 或 Codex。模板导入的 Agent 模式当前使用 Claude Code,需要在本机安装并配置好 Claude Code。

🚀 快速开始

# 克隆仓库
git clone https://github.com/CRui5in/paper-ppt-agent.git
cd paper-ppt-agent

# 一键启动(自动安装依赖 + 启动前后端)
# Windows
.\start-dev.bat
# Linux
sh start-dev.sh

启动后访问:前端 http://127.0.0.1:5173 · 后端 http://127.0.0.1:8000

📎 手动启动
# 安装依赖
uv sync --locked
cd frontend && npm install && cd ..

# 后端
uv run python -m uvicorn backend.app:app --host 127.0.0.1 --port 8000 --reload --reload-dir backend

# 前端
cd frontend && npm run dev -- --host 127.0.0.1 --port 5173 --strictPort

📋 更新日志

2026 年 6 月

  • 增强论文解析、章节规划和内容筛选能力
  • 提高正文图表与页面图片的匹配准确性
  • 收敛目录和章节划分,优化汇报结构
  • 提升 Provider 与 Agent 生成稳定性
  • 改进 SVG 修复、预览解析和生成状态反馈

2026 年 5 月

  • 🧠 DeepSeek 专用接口 — 独立的 DeepSeek 提供商支持与思考模式配置
  • 👁️ 视觉 QA(实验性) — 调用多模态大模型将幻灯片渲染为图像进行布局与对比度审查
  • 🖥️ 实时 SVG 预览 + 日志面板 + Critic 详情视图 — 生成过程中实时查看幻灯片、Agent 日志与审查详情
  • 🎯 图标 RAG 语义搜索 — 基于 Gemini Embedding 从图标库中语义检索匹配候选,可独立开关
  • 🎨 模板系统与自定义字体 — 预设行业风格模板,支持自定义标题/正文字体配置
  • 🧩 模板导入 — 支持 PPTX 直接导入、五页模板映射,以及基于 Claude Code 的 Agent 模式自动分析和模板化
  • 🤖 Agent 生成模式 — 工作台接入 Claude Code / Codex 生成演示文稿
  • 📝 PPT 编辑器 — 在生成结果与模板导入流程中接入可视化 PPT 编辑器,支持页面编辑、备注、保存、重新导出
  • 🔬 Deep Research 工作流 — 外部研究增强(arXiv / Semantic Scholar / Web)+ 相关性过滤
  • 🖼️ 在线搜图 — 利用 Tavily / SerpAPI Key 在线搜索配图,支持 AI 智能布局分析与插入、一键撤消、图片下载
  • 🎨 UI 重构 — 基于 Konva 画布编辑器重写 UI,升级 SVG-to-PPTX 转换器

2026 年 4 月

  • 🔒 静态 Critic 增强 — 新增装饰线遮挡检测、低对比度文本检测,修复多行文字宽度估算误报
  • 📁 版本历史管理 — 每次反馈迭代自动归档快照,支持版本对比与回溯
  • 🔎 Token 日志筛选 — 按模型、阶段、页码、任务筛选 LLM 调用记录,支持点击展开详情
  • ⏹️ 生成取消 — 支持在流水线运行中取消当前任务
  • 🤖 多智能体流水线 — Strategist → Executor → Critic 三阶段协作,支持 SVG 自动修复与反馈迭代

🗺️ 开发计划

  • 🧠 本地大模型支持

🙏 参考项目

  • PPTAgent — 流程设计与 Agent 架构参考
  • ppt-master — 部分工程实现参考
  • PPTist — PPT 编辑器能力参考与集成基础

📄 许可证

本项目基于 GNU Affero General Public License v3.0 (AGPL-3.0) 发布。

📬 联系方式

⭐ Star History

Star History Chart