AI Coding 与具身智能速报 · 2026年5月9日
侧重 AI Coding 与 具身智能 方向,精选5条值得关注的重要动态。
1. OpenAI 三款实时语音模型齐发:GPT-Realtime-2 搭载 GPT-5 级推理,每分钟翻译仅需 2 毛钱
事件内容:
5月8日,OpenAI 一次性推出三款全新实时语音模型,覆盖语音 AI 的三大核心场景:GPT-Realtime-2(语音对话)、GPT-Realtime-Translate(实时语音翻译)、GPT-Realtime-Whisper(实时流式转录),全部通过 Realtime API 向开发者开放。GPT-Realtime-2 搭载 GPT-5 级别推理能力,上下文窗口从 32K 扩大到 128K,可在对话中实时调用工具、处理中断,并通过 Preamble 机制边执行任务边向用户播报进度;GPT-Realtime-Translate 支持 70 多种语言输入、翻译成 13 种语言输出,采用端到端架构跳过级联转换环节,每分钟定价约 0.034 美元(约人民币 2 毛 5);GPT-Realtime-Whisper 专为低延迟实时字幕设计,说话即出文字。德国电信、Priceline、Vimeo 已率先落地应用。
为何值得关注:
这次发布的核心价值在于将语音 AI 基础设施完整标准化——对话、翻译、转录三大模块一次性全部接口化,开发者可以极低门槛快速搭建语音产品。翻译模型最具冲击力:人类顶级同传日薪超万元、全国顶级同传不足 30 人,而 AI 以万分之一的成本实现近似效果,且 7×24 小时无需休息。这不只是"成本降低",而是将高门槛专业服务彻底平民化,对会议翻译、速记等服务行业的影响堪比当年打车软件颠覆出租车行业。对 AI Coding 方向而言,语音接入能力的成熟,意味着未来的编程 Agent 将更自然地融入口头协作工作流。
2. 谷歌 Remy AI 代理曝光:主动帮你整理文件、规划日程,24 小时随时待命
事件内容:
5月6日,谷歌内部消息曝光一款代号为 "Remy" 的 AI 个人代理项目(内部代码名 Lobster),基于 Gemini 平台构建。Remy 的核心设计目标是 24 小时全天候在线,不等用户开口就主动介入——从文档整理、日程规划,到整合 Google 全家桶服务(Gmail、日历、Google Drive)进行跨平台自主操作,计划同时覆盖 Mac 桌面端与 Chrome 浏览器。目前该项目处于员工内测阶段,已在 Gemini 内测版中完成初步集成测试,预计在即将举行的 Google I/O 开发者大会上正式亮相。Gemini for Mac 同步计划引入 AI Agent 接管计算机操控功能,可主动读取窗口上下文并执行操作。
为何值得关注:
Remy 的发布时间点颇具意味——就在 Anthropic Claude Orbit 主动助手曝光之后,谷歌立刻跟上,两家公司不约而同地将 AI 助手从"被动响应"升级为"主动服务"。这场"主动式 AI 代理"军备竞赛正在加速:谁能先建立用户依赖,谁就能锁定下一个十年的入口地位。对 AI Coding 开发者而言,Remy 与 Gemini for Mac 的组合意味着代码编写过程将越来越多地嵌入持续运转的智能代理中,开发环境将从"启动即用"演进为"持续陪跑"。
3. 宇树科技 UniStore 全面开放:全球首个人形机器人"应用商店"正式上线
事件内容:
5月7日,宇树科技(Unitree)正式宣布其 UniStore 官方共享应用平台全面向全球开发者及用户开放,定位为全球首个人形机器人任务动作应用商店。平台核心功能:用户可将训练好的舞蹈、武术、搬运等动作模型一键上传分享,其他用户可下载并一键部署到机器人;并设立优秀开发者奖励机制。UniStore 类比手机 App Store,将人形机器人从"功能机"阶段升级为"智能机"阶段。宇树科技 2025 年全年人形机器人出货量已超 5500 台,并已开源旗舰 UnifoLM-VLA-0 大模型,计划 3 年内发布通用具身基础模型。
为何值得关注:
UniStore 的意义不在于"又一个平台",而在于它重新定义了人形机器人的价值兑现路径。以往机器人厂商卖的是"能干什么"的硬件,现在开始卖"能扩展什么"的生态——这与苹果 iPhone 从功能手机进化为智能手机时的逻辑几乎完全相同。当一键部署动作成为现实,机器人的可用场景将呈指数级扩张,而这个生态中沉淀的数据、应用和用户习惯,将成为宇树构建竞争护城河的核心资产。这也意味着具身智能的竞争维度正式升级——只有硬件能力已不够,生态聚合力才是下一阶段的决胜点。
4. 国家电网 68 亿采购 8500 台具身智能设备:电力行业机器换人全面提速
事件内容:
5月8日,国家电网印发的《2026年具身智能发展规划》细节在市场快速传播,引爆人形机器人板块大涨:当日 20 只个股涨幅达到或超过 10%,板块指数创近三个半月新高。规划明确显示,国家电网年内将集中采购各类具身智能设备约 8500 台,总投资规模约 68 亿元(其中设备采购预算约 58 亿元),重点聚焦电力巡检、带电作业、应急救援、仓储物流四大核心场景,目标是推动电网从"人工运维"向"自主化运维"转型。业内预计,若计入南方电网及地方能源集团跟进采购,2026 年我国电力行业具身智能总投资规模有望突破 100 亿元。
为何值得关注:
国家电网这份采购规划的价值,不只是 68 亿元订单本身,而是它作为"国家级验证场景"的示范效应。电力行业是对设备可靠性要求极高的特种场景,国家电网大规模采购等于给整个具身智能产业颁发了"入场许可证"——证明人形机器人已具备在高要求 B 端环境中稳定运行的能力。全国约 10 万个变电站、单站配置 1-2 台、单价 50-100 万元,仅电网系统的潜在市场空间就超千亿元。这次采购传达了清晰信号:具身智能的规模化落地,将以政府和央企主导的特种行业场景为突破口,逐步向商业和消费级市场渗透。
5. Cursor 3.1 发布 + AI 编程工具格局重塑:Agent 模式、按量计费成 2026 行业新标准
事件内容:
2026年5月前后,AI 编程工具赛道迎来新一轮格局重塑。Cursor 3.1 重点强化 Agent 模式,支持多文件并发修改、跨项目上下文理解,并引入 Background Agent(后台自动任务)能力;GitHub Copilot 于 6 月起全面转向按 Token 计费(AI Credits 体系),打破此前 $10/$19 固定订阅模式;Claude Code CLI 2.0 新增 Routines 定时任务和 Auto Modo 自动授权,向"无人值守开发"迈进;Windsurf 被 Cognition AI(Devin 背后公司)收购后,定位从 IDE 工具转向企业级 AI Coding 平台;OpenAI Codex 推出 Codex Labs 企业版,支持 Workspace Agents 持久化机制。整个 AI 编程工具赛道正从"代码补全插件"向"自主工程代理"全面进化。
为何值得关注:
这一轮 AI 编程工具的集体进化,揭示了一个关键拐点:AI 助手已不再满足于"帮你写代码",而是开始尝试"替你管理项目"。Background Agent、Routines 定时任务、Workspace Agents 持久化——这三个功能共同指向同一个方向:AI 能够在开发者离线时自主推进工作。与此同时,按量计费模式的普及也意味着轻度用户成本降低,而重度用户(如大型研发团队)的 AI 使用成本将显著上升,倒逼企业重新评估 AI Coding 的 ROI。对独立开发者而言,这是窗口期:当这些工具的 Agent 能力还在校准阶段,深度掌握其使用方法的先行者将建立起难以复制的效率优势。
每日 09:00 自动更新 | 侧重 AI Coding 与具身智能方向