从"全自动"到"按例外管理":AI Agent 协作的真正边界
我一开始想让 AI 替我回消息、跑完项目。但真正的问题不是"要不要全自动",是"哪些环节必须我在场"。
我最近一直在想一种”理想的 AI 协作模式”。
AI 接入飞书,监听所有消息;被 @ 时路由到对应项目,自动处理,自动回复;再连到 GitHub、数据库、线上部署。前端到后端,一条链路跑完,我只负责点确认。
把”回复消息”、“改项目”、“部署上线”全部接起来——人不再是执行节点,只是审批节点。
想得越久,越觉得这个方向对。但越深入,越发现我一开始的 framing 就错了。
Reframe 1: 不是”要不要全自动”,是”哪些环节我必须在场”
“全自动”这个词有误导性。它暗示了一个二元选择:要么全自动,要么全手动。但真实的工作从来不是这样分布的。
真正的问题是:在这一长串动作里,哪些节点我必须亲自在场?哪些可以放手?
这个问题一旦问出来,“全自动”这个目标就消解了。因为答案永远不是”全部”或”没有”。
这种思想有个名字:按例外管理 (management by exception)。默认自动,例外人管。
SRE 圈子十几年前就在用类似的思路——叫 SLO + Error Budget。不追求 100% 正确,定义一个可接受错误率,只要在预算内就让系统自动跑,超预算才介入。
Agent 系统可以借用这套思想。关键是定义好那个”例外”是什么。
Reframe 2: “例外”不能被静态定义
我一开始以为,“哪些环节必须人看”是可以列表的。写一个 SOP,一次性定义完。
这个想法经不起推敲。
举一个例子。“合并 PR”这个动作。在日常 feature 分支上,全自动合很合理。但如果今天是版本冻结期、这个 PR 动了核心支付链路、或者 reviewer 上周刚离职——同一个动作,风险完全不一样,必须人看。
“是否需要人介入”不是属性,是函数。 它不取决于动作本身,取决于动作 × 当前上下文。
这意味着”边界定义”不能是一张静态表,得是一个动态判定层。而这层本身就是一个决策系统。
Reframe 3: 判定层用什么实现
于是问题变成了:那个”决定要不要升级到人”的判定层,用什么做?
三个选择:
规则引擎 (if-then 显式编码):可审计、可解释、行为稳定。但你永远穷举不完边界情况。
LLM 判断 (“你觉得这个要不要升级?”):灵活、能处理新情况。但它会在关键时刻莫名放水,不可预测。
混合:硬规则兜底 + LLM 补充。
我觉得一定是混合。而且硬规则必须是黑名单而不是白名单。
- 白名单(“只有这些动作可以自动”)——安全,但永远跑不起来,因为新动作太多;
- 黑名单(“这些动作必须人看,其他都自动”)——敢放手,但需要穷举危险清单。
黑名单是有限的:删库、发钱、对外发消息、动权限、改不可逆状态。 白名单是无限的。
这是一个非对称的选择。前者让系统永远谨慎到跑不动,后者让系统敢跑、只在红线前停下。
Reframe 4: 真正的一级设计指标是可逆性
顺着黑名单这个思路再往下想一层,会发现一件事:
“哪些算黑名单”本质上不是凭感觉定的,而是有一个统一维度:可逆性。
- 写代码、开 PR → 高可逆(git reset / close PR)→ 放手
- 改 soft-delete 字段 → 中可逆(有审计日志)→ 自动 + 记录
- 发一条飞书消息 → 低可逆(对方已经读到了)→ 必须确认
- 删 prod 表、force push main → 不可逆 → 禁止 agent 独立执行
一旦你戴上”可逆性”这副眼镜看系统,会发现一条新的工程 KPI:
把系统改造得更可逆,让 agent 敢放手。
多上 soft delete、多做 staging、用 PR 而不是直接 push、用 draft 而不是直接 send、给所有对外动作加撤销窗口。
以前做可逆性是为了”万一人出错”,现在是”让 agent 敢做事”。
可逆性是 AI 时代基础设施的隐藏 KPI,大多数团队还没意识到。
最后一个被低估的问题:人力没少,只是换了地方
这套”按例外管理”的模式建立起来后,“节省的人力”到哪里去了?
答案是:转移了,没消失。
以前 10 个工程师各做各的,每人 80% 时间在执行。未来 1 个人管 10 个 agent,他的时间会变成:
- 20% 定义边界和规则
- 30% review agent 产出和异常
- 30% 处理 agent 搞不定的硬问题
- 20% 重新定义规则(因为环境变了)
总工时没少多少。但”什么是有价值的工时”彻底变了。
以前值钱的是执行熟练度。未来值钱的是规则定义能力、品味、判断力——那些没法外包给 agent 的部分。
Agent 不是”替代人力”,它是把工作的高价值部分和低价值部分剥离开。高价值部分反而更稀缺、更难——因为它变成了全部。
一段话总结
回到最初那个问题——“AI 能不能替我处理消息、跑完整个项目?”
能。但重要的不是这个答案。重要的是把问题换掉:
- 不是”要不要全自动”,是”按例外管理”。
- 不是”给 agent 什么权限”,是”系统有多可逆”。
- 不是”节省多少人力”,是”剩下的人力都在做真正重要的事”。
Agent 的终点不是把人替换掉。是把人从执行者重新定义成判断者。