LumenNews / 早报 / 2026-05-09 Sources & Pipeline →
早报 · 2026-05-09 · 产品动向 3 · 深度观察 4 · 79 sources

2026-05-09

Claude Code v2.1.136 修复了一批高频痛点(MCP 服务器 /clear 后消失、OAuth 并发覆盖导致每日重登录、plan mode 文件写入绕过),同日 Alex Albert 披露 Claude Mythos Preview 在 METR 80% 成功率 benchmark 上的 time horizon 超过第二名 2 倍——一个是今天就该更新的操作项,一个是 coding agent 能力阶跃的前兆信号。Codex 0.130.0 正式发布并新增 headless remote-control 模式,也值得关注。

A · 产品动向

1. Claude Code v2.1.136 + v2.1.137:MCP/OAuth/plan mode 关键修复

📌 发生了什么 — v2.1.136 集中修复六处高频 bug:① MCP servers(.mcp.json / plugin / claude.ai connector)在 VSCode、JetBrains、Agent SDK 中执行 /clear 后静默消失;② MCP OAuth refresh token 在多 server 并发刷新时互相覆盖,导致每天须手动重新认证;③ plan mode 存在匹配 Edit() allow rule 时错误放行文件写入;④ WSL2 从 Windows 剪贴板粘贴图片;⑤ extended thinking 在 tool call 后输出 redacted block 触发 API 400;⑥ —resume/—continue 在项目路径含下划线时失效。新增两个配置项:settings.autoMode.hard_deny(无视用户 intent 的分类器硬拒规则)和 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL(企业 OTel 管道重新启用 session quality survey)。v2.1.137 紧随修复 VSCode Windows 扩展启动失败。

💬 讨论 — MCP OAuth 每日重登录和 /clear 后 MCP 消失是社区长期高频投诉,运行多个远程 MCP server 的用户此前每天都需手动重新认证,此次一并修复。

🔗 来源GitHub Release v2.1.136 · GitHub Release v2.1.137

💡 Insight — autoMode.hard_deny 是新的安全原语:它让 harness 层在 Claude 进行 intent 判断之前就阻断特定操作,适合在 CI/agent 场景中添加确定性防线——不依赖模型判断,不可被用户 intent 覆盖。运行多 MCP server 的用户今天就应更新。

2. Claude Mythos Preview:METR time horizon 超第二名 2 倍

📌 发生了什么 — Anthropic DevRel Alex Albert 披露:提供给 METR 的 Claude Mythos Preview 早期快照,在 METR 80% 成功率 benchmark 上的 time horizon(agent 自主完成任务的时间跨度)超过当前排名第二的模型 2 倍以上。这是预发布数据,非 Mythos 正式发布公告。

🔗 来源Alex Albert (@alexalbert__)

💡 Insight — METR time horizon 是目前最接近「coding agent 真实自主能力」的外部 benchmark。2 倍差距如果在正式版保持,意味着当前因 context 断点或持久性问题而无法完成的长链路任务将直接变得可行——这不是边际改善,是可完成任务类型的结构性扩张。现在不需要立即动手,但需要更新对「一次 agent session 能做多长」的预期上限。

3. Codex rust-v0.130.0 正式发布:headless remote-control 模式上线

📌 发生了什么 — Codex 0.130.0 正式版发布,核心新增:① codex remote-control 子命令——更简洁的无头 app-server 启动入口,专为程序化远程控制设计;② plugin sharing 支持 link metadata 和可发现性控制;③ Bedrock auth 支持 aws login console-login 凭据;④ view_image 在多环境 session 中通过所选环境解析文件。修复:live thread 配置变更无需重启生效、turn diff 在 apply-patch 后保持准确、remote compaction 修复 v2 stream 的 response.processed 事件。0.131.0-alpha.1 同日推送。

💬 讨论 — OpenAI President Greg Brockman 表示「Codex is for everyone」,定位已从纯 coding 扩展到所有计算机工作。OpenAI Codex PM Derrick Choi 列举生命科学场景(结构生物学 workflow、临床 CI/CD)作为非工程师使用案例。

🔗 来源GitHub Release rust-v0.130.0

💡 Insightcodex remote-control 是把 Codex 嵌入自定义 CI/CD 和 orchestration pipeline 的关键入口——不依赖 TUI,可程序化启动和控制 agent session。想把 Codex 跑进 CI 的团队今天可以开始实验这个入口。

B · 深度观察

  • HTML is the new Markdown:Claude Code 团队成员的实践倡导 — Thariq Shihipar(Claude Code 团队)发文:停用 Markdown,改让 Claude Code 生成 HTML——可嵌入 SVG 图表、交互组件、内联 diff 注释;Simon Willison 撰文转介并表示开始重新考虑 GPT-4 时代养成的 Markdown 默认习惯 · 来源
  • Anthropic Managed Agents 深度解析:harness 与模型正在融合 — Dan Shipper 对话 Anthropic 平台 PM Angela Jiang 和工程负责人 Katelyn Lesse:「任意 harness 热插任意模型」的思路已过时;Memory 任务 eval 数据显示不同 harness 性能差异极大;sandbox 崩溃带走 agent 是 internal agent 上不了生产的真实原因 · 来源
  • OpenAI Codex 安全架构:沙箱 + 网络策略 + agent telemetry — OpenAI 官方文章介绍企业内部安全运行 Codex 的方法:网络隔离沙箱、人工审批节点、细粒度网络策略、专为 agent 设计的可观测性——目前最完整的 coding agent 生产安全参考 · 来源
  • 企业 token 预算:下一个组织级资源分配难题 — Box CEO Aaron Levie 指出:agent 任务时长增加后,token 消耗将从 IT 预算溢出到业务部门预算,需要全新可见性与管控软件;当前大公司缺乏跨部门 agent 支出的聚合视图,这既是痛点也是创业机会 · 来源