CoPaw 上下文管理设计解析
March 30, 2026 · View on GitHub
本文聚焦短期上下文管理,不涉及长期记忆模块。
AI Agent 在使用过程中,迟早会遇到一个让人头疼的问题:上下文窗口被塞满了。
工具调用返回了一大段 HTML、几千行日志、或者完整的文件内容——这些都会急剧消耗宝贵的 Token 配额。随着对话轮次增加,早期的信息要么被截断,要么把整个窗口撑爆,Agent 的表现开始下滑。
CoPaw 在设计上下文管理时,围绕这个问题给出了一套系统性的答案。本文将完整拆解 * CoPaw Context Management V2* 的数据结构与运行机制。
上下文长什么样?
在讨论"如何管理"之前,先看清楚"管理的是什么"。
CoPaw 的上下文分为两层:内存层与文件系统层。
内存层(In-Memory)
内存中维护两个核心字段:
compact_summary(可选):当历史对话被压缩后,这里存放结构化摘要,包含Goal、Constraints、Progress、KeyDecisions、NextSteps五个维度——相当于一份精炼的"工作备忘录"。同时还包含一个历史对话原始数据的路径引导,告诉 Agent 去哪里找dialog/YYYY-MM-DD.jsonl,以及建议"从后往前读"。messages:当前对话的完整消息列表,是 Agent 实际推理时消费的数据。
文件系统层(File Cache)
对于体积较大、不适合长期驻留内存的内容,CoPaw 将其 offload 到文件系统:
- 历史对话原始数据:
dialog/YYYY-MM-DD.jsonl,按日期分文件存储 - 工具调用结果:
tool_result/{uuid}.txt,设有 N 天 TTL,过期自动清理
flowchart TD
A[Context] --> B[compact_summary]
B --> C[dialog 路径引导 + Goal/Constraints/Progress/KeyDecisions/NextSteps]
A --> E[messages: 完整对话历史]
A --> F[文件系统缓存]
F --> G[dialog/YYYY-MM-DD.jsonl]
F --> H[tool_result/uuid.txt N天TTL]
这个设计让 Agent 既能在内存中快速访问近期对话,又能在需要时按需回溯历史——而不是把所有历史内容硬塞进上下文。
推理前做什么?Pre-Reasoning Hook
每轮推理正式开始前,CoPaw 会执行一个 Pre-Reasoning Hook,自动完成上下文的整理工作。整个流程分四步:
- 工具结果压缩(
ToolCallResultCompact):先处理工具调用结果,将超长内容截断并 offload 到文件系统 - 上下文检查(
ContextChecker):计算当前上下文的 Token 使用量,判断是否超出阈值 - 若超出阈值:
- 保留最近 X% 的 Token(保障对话连贯性)
- 对更早的历史对话调用
Compactor生成结构化摘要
- 历史对话持久化(
SaveDialog):将被压缩的原始对话保存到文件系统
flowchart LR
A[Pre-Reasoning Hook] --> B[ToolCallResultCompact]
B --> C[ContextChecker]
C --> D{Token > 阈值?}
D -->|是| E[保留近期 X% Token]
E --> F[Compact & 生成摘要]
F --> G[SaveDialog: 持久化到文件]
D -->|否| H[正常推理]
这个流程确保每次推理开始前,上下文都处于一个"干净"的状态。
工具结果 Offload:统一的两阶段截断
工具调用结果是上下文膨胀的主要来源之一。CoPaw 采用两阶段截断策略,将截断时机与截断力度分离:
- 一次截断:在工具调用结果写入上下文时立即触发,所有工具(包括
read_file)统一适用。截断后将完整原始内容保存到tool_result/{uuid}.txt,并在消息中附注文件路径与起始行提示。 - 二次截断:在 Pre-Reasoning Hook 处理时,对已滑出
recent_n范围的历史消息触发,截断更为激进,进一步压缩上下文占用。
flowchart LR
A[工具调用完成] --> T[一次截断<br>写入上下文时立即执行]
T --> S[完整内容写入 tool_result/uuid.txt<br>消息附注文件路径 + 起始行]
S --> B{Pre-Reasoning Hook<br>该消息在 recent_n 内?}
B -->|是| C[无需处理<br>保持一次截断结果]
B -->|否| D[二次截断<br>更激进压缩<br>file_path 不变]
这样设计的好处在于:一次截断保证所有工具结果从写入那刻起就不会撑爆上下文;二次截断则随着对话推进自动"淡化" 历史信息,始终为近期内容留出充足空间。
以 Browser Use 类工具为例
| 阶段 | 行为 |
|---|---|
| 一次截断 | 工具返回结果后立即截断,完整内容写入 tool_result/uuid.txt,消息附注 "FullText saved to xxxx,请从第 N 行开始读" |
| 在 recent_n 内 | Pre-Reasoning Hook 不做额外处理,保持一次截断结果 |
| 超出 recent_n(二次截断) | 解析已有的消息结果,对原始内容做更激进的截断,同步更新消息中的 meta 信息(如行号提示);file_path 不变,仍指向原文件 |
二次截断的关键在于:原始完整内容始终保存在同一个文件路径下,无论经过多少轮截断,Agent 都能通过文件引用找到原始内容;截断只影响上下文中的消息片段和 meta 信息,不改变文件。
flowchart LR
A[Browser Use Result] -->|一次截断| B[上下文: 片段 + file_path + 起始行]
B --> C{超出 recent_n?}
C -->|否| D[保持不变]
C -->|是| E[解析现有消息<br>对原始内容二次截断<br>更新 meta 信息]
E --> F[上下文: 更短片段 + 同一 file_path]
两阶段截断的代码实现与示例
截断逻辑的入口是 truncate_text_output,它根据文本中是否已包含 <<<TRUNCATED>>> 标记来分发到两个不同的函数:
def truncate_text_output(text, start_line=1, total_lines=0,
max_bytes=DEFAULT_MAX_BYTES,
file_path=None, encoding="utf-8") -> str:
if TRUNCATION_NOTICE_MARKER in text:
return _retruncate(text, max_bytes=max_bytes, encoding=encoding)
else:
return _truncate_fresh(text, start_line=start_line,
total_lines=total_lines,
max_bytes=max_bytes,
file_path=file_path, encoding=encoding)
一次截断(_truncate_fresh)
触发时机:工具调用完成、结果写入上下文时立即执行,此时文本中尚不含截断标记。
核心逻辑:
- 若文本字节数未超过
max_bytes,直接返回原文; - 否则按字节切片,保留截断点前最后一个完整行,计算下一段应从哪一行开始;
- 在末尾追加截断通知(
<<<TRUNCATED>>>),提示后续从start_line=N继续读取。
示例:假设一个工具返回了 3 000 行的 HTML 内容(共 200 KB),而 max_bytes = 50 KB:
# 原始工具输出(200 KB,共 3000 行)
<html>
<head>...</head>
<body>
...(大量内容)
</body>
</html>
# 一次截断后写入上下文(50 KB,约 750 行)
<html>
<head>...</head>
<body>
...(前 750 行)
<<<TRUNCATED>>>
The output above was truncated.
The full content is saved to the file and contains 3000 lines in total.
This excerpt starts at line 1 and covers the next 51200 bytes.
If the current content is not enough, call `read_file` with file_path=tool_result/abc123.txt start_line=751 to read more.
完整原始内容同时写入 tool_result/abc123.txt,上下文中仅保留截断片段与续读提示。
二次截断(_retruncate)
触发时机:Pre-Reasoning Hook 处理时,对已滑出 recent_n 范围的历史消息执行,进一步压缩上下文占用。
核心逻辑:
- 从文本中分离出
<<<TRUNCATED>>>前的原始内容与后面的通知部分; - 若原始内容仍未超出新的
max_bytes(带 100 字节宽松量),直接返回原文; - 否则按新的更小字节限制重新切片,并通过正则替换通知中的 字节数 与 续读行号,
file_path保持不变。
示例:同样是上面那条工具消息,在它滑出 recent_n 之后,二次截断将 max_bytes 从 50 KB 压缩到 10 KB:
# 二次截断前(上下文中已有一次截断结果,50 KB)
<html>
<head>...</head>
<body>
...(前 750 行)
<<<TRUNCATED>>>
...This excerpt starts at line 1 and covers the next 51200 bytes.
...call `read_file` with file_path=tool_result/abc123.txt start_line=751 to read more.
# 二次截断后(进一步压缩至 10 KB,约 150 行)
<html>
<head>...</head>
<body>
...(前 150 行)
<<<TRUNCATED>>>
...This excerpt starts at line 1 and covers the next 10240 bytes.
...call `read_file` with file_path=tool_result/abc123.txt start_line=151 to read more.
关键点:file_path 始终指向 tool_result/abc123.txt,Agent 随时可通过文件引用获取完整原始内容;截断只影响上下文片段与 meta 信息。
ReadFile 工具的特殊处理
read_file 与 Browser Use 类工具共享同一套两阶段截断机制,但有一个关键区别:它读取的文件本身已存在于文件系统
,无需在一次截断时另行保存。
| 阶段 | 行为 |
|---|---|
| 一次截断 | 在读取时即完成截断,结果写入上下文;原始文件路径已知,无需额外保存到 tool_result/ |
| 在 recent_n 内 | Pre-Reasoning Hook 不做任何修改,保持读取时的截断结果 |
| 超出 recent_n(二次截断) | 与其他工具相同,对消息内容做更激进的截断,更新 meta 信息 |
flowchart LR
A[ReadFile 调用] -->|读取时截断| B[上下文: 截断内容<br>原始文件路径已知]
B --> C{超出 recent_n?}
C -->|否| D[无需修改]
C -->|是| E[二次截断<br>更新 meta 信息<br>与其他工具行为一致]
Markdown 文件的特殊保护
对于 skill.md、规则文件等 Markdown 文件,CoPaw 在截断时给予更大的保护阈值。
Markdown 文件通常承载结构化的知识或指令,过度截断会破坏其完整语义。因此,在一次截断和二次截断时,Markdown 文件的截断触发上限均高于普通工具输出,确保 Agent 能读到尽可能完整的结构化内容。
flowchart LR
A[工具结果] --> B{是 Markdown 文件?}
B -->|是| C[更高截断阈值<br>更大保护]
B -->|否| D[标准截断阈值]
C --> E[一次 / 二次截断逻辑]
D --> E
长期记忆的触发逻辑
本节超出上下文管理的核心范畴,简要介绍 CoPaw 的长期记忆写入机制。
长期记忆由三个触发路径驱动:
-
主 Agent 主动写入:
Memory.md(长期记忆主干,记录用户偏好等持久信息)YYYY-MM-DD.md(当日日志)
-
上下文压缩触发时,由 Summarizer(ReAct Agent) 写入:
- 个性化信息(用户偏好、习惯等)
- Try-error 信息(失败尝试与修正经验)
-
定时任务(每日 00:00):
- 汇总最近的
YYYY-MM-DD.md文件 - 将日志整合更新到
Memory.md
- 汇总最近的
flowchart TD
A[Main Agent] --> B[写入 Memory.md]
A --> C[写入 YYYY-MM-DD.md]
D[上下文达到压缩阈值?] -->|是| E[Summarizer Agent]
E --> F[记录: 个性化信息]
E --> G[记录: Try-Error 经验]
H[定时任务 00:00] --> I[汇总最近 YYYY-MM-DD.md]
I --> J[更新 Memory.md]
这套机制确保了短期对话中的重要信息能够沉淀为长期记忆,不因对话结束而丢失。
小结
CoPaw 上下文管理的核心设计哲学可以用一句话概括:
让内存只放"现在需要的",让文件系统保管"之后可能需要的"。
通过 Pre-Reasoning Hook 的四步流程、统一的两阶段截断策略,以及文件系统的持久化支撑,CoPaw 在有限的上下文窗口内为 Agent 提供了最大程度的信息可用性——无论对话持续多久,Agent 总能找到它需要的上下文。
本文设计对应实现可参考 CoPaw MemoryManager 与 ReMe ReMeLight。