侧重 AI Coding 与 具身智能 方向,精选5条今日值得关注的重要动态。
1. 智源大会发布悟界世界基座模型与RoboBrain Orca具身智能模型,FlagOS 2.1支持32款芯片
事件内容:
6月12日,第八届北京智源大会在中关村国际创新中心开幕,图灵奖得主Whitfield Diffie与Andrew Barto等200余位学者及40余位AI企业CEO出席。智源研究院院长王仲远集中发布了多项核心成果:悟界·Physis-v0.1——全球首个通用世界基座模型,支持50余种复杂物理场景的长程推理,标志着AI从"预测下一个词元"向"预测下一个物理状态"的范式革命;悟界·RoboBrain Orca——具身智能"想、看、动"一体化模型,提升跨场景适应能力;FlagOS 2.1——众智操作系统升级版,支持18家芯片厂商的32款芯片,覆盖90%以上主流开源大模型的多芯片部署。此外还发布了心脏磁共振诊断智能体BAAI Cardiac Agent、自主研究智能体AREX等四款垂直领域Agent产品。
为何值得关注:
智源大会的集中发布勾勒出中国AI从基础模型到具身智能再到软硬件生态的完整布局。第一,悟界·Physis-v0.1是世界模型方向的重要里程碑——当全球还在争论多模态大模型的能力边界时,中国研究机构率先将AI从"数字世界"推向"物理世界"的建模与推理。第二,RoboBrain Orca的"想、看、动"一体化设计直击具身智能核心痛点——感知、规划、执行三大模块的割裂一直是机器人泛化的最大障碍,一体化模型有望大幅提升跨场景适应能力。第三,FlagOS 2.1覆盖32款芯片的意义在于打破了"模型-芯片"的绑定关系,为国产AI算力生态提供了统一的软件基座。第四,智源大会连续8届坚持学术硬核定位,已成为中国AI领域最具思想引领力的平台,其议题设置(世界模型、具身智能、AI安全)精准预判了2026年产业方向。
2. 小米MiMo Code开源发布,持久记忆系统+百万token上下文,benchmark超越Claude Code
事件内容:
6月11日,小米MiMo技术团队正式发布并开源AI编程助手MiMo Code V0.1.0,这标志着小米首次进入AI Coding Agent领域。MiMo Code基于开源项目OpenCode二次开发,采用MIT协议开源,内置限时免费多模态模型MiMo-V2.5,同时支持接入DeepSeek、Kimi、GLM等主流模型。其核心技术亮点包括:独创持久记忆系统——让Agent在多轮交互中保持上下文连贯性;支持百万token上下文——可一次性处理大型代码仓库;Compose模式——实现模型与Agent的协同优化。在离线benchmark上,MiMo Code+MiMo-V2.5-Pro在三项测试中优于Claude Code+Sonnet 4.6;执行步数超200步时,真实开发胜率达65%。开源5天后GitHub Star数突破5100。但首批用户也反馈了Agent误删全局npm包、疑似内存泄露、默认向tracking.miui.com发送遥测数据等问题。
为何值得关注:
MiMo Code的出现具有多重信号意义。第一,这是中国手机/硬件巨头首次以开源方式正面切入AI Coding赛道——小米以MIT协议开源,态度比Anthropic的专有路线更为开放,可能吸引大量中国开发者生态。第二,持久记忆系统是当前AI编程Agent的差异化方向——Claude Code和Codex的每次交互都从零开始推理,MiMo Code的记忆机制有望降低重复推理成本。第三,benchmark数据虽然亮眼但需谨慎看待——离线测试不等于真实开发场景,且记忆系统是否会导致Agent"固执己见"仍需验证。第四,安全争议(npm误删、遥测数据)暴露了国产AI编程工具在工程成熟度上与海外头部产品的差距,这也是国产替代必须跨越的信任门槛。
3. Kimi K2.7 Code编程模型发布并开源,token消耗降低30%登顶HuggingFace
事件内容:
6月12日,月之暗面Kimi发布并开源Kimi K2.7 Code编程大模型。该模型采用1.1T参数MoE架构,每次推理仅激活32B参数,原生支持256K上下文和Image/Video输入。相比上代K2.6,K2.7 Code在长上下文编程场景的指令遵循能力显著提升,长程任务中的过度思考倾向大幅改善,平均token消耗降低30%。在Kimi Code Bench v2基准测试中性能提升21.8%,发布当日登顶HuggingFace Trending榜首。Kimi同时预告将于下周一上线6倍速高速版本。模型内置preserve_thinking模式,可保留多轮推理上下文避免重复计算,官方推荐使用Kimi Code CLI作为Agent框架。
为何值得关注:
Kimi K2.7 Code的发布说明国产编程模型的迭代速度正在加快。第一,token消耗降低30%直击AI编程的核心成本痛点——开发者使用编程Agent的最大抱怨之一就是"烧Token",降低消耗直接提升性价比。第二,1.1T MoE架构+32B激活参数的设计思路体现了一种务实路线——不追求最大参数量,而是在推理效率和性能之间找平衡。第三,登顶HuggingFace Trending说明全球开发者社区对国产开源编程模型的关注度持续升温。第四,与GPT-5.5和Claude Opus 4.8仍有差距的现实提醒我们,国产模型从"能用"到"好用"仍有较长距离,但在特定编程场景下的性价比优势正在形成。
4. ALE智能体终极考试揭榜:Claude Code+Opus 4.7框架夺亚军,Fable 5性价比垫底
事件内容:
6月12日,UC Berkeley Dawn Song团队推出ALE(Agent Last Exam)——号称"智能体最后的考试",包含1500+道专家级项目题,覆盖55个行业子领域。AI需通过GUI+CLI操作完整电脑完成作业。首轮成绩公布:ALE Claw框架以23.0%排名第一,Claude Code+Opus 4.7框架以22.7%列第二,Claude Fable 5+Claude Code仅获22.0%排第三,GPT-5.5占据第4/5/6/8/10多席。成本对比更令人震惊:Fable 5跑完任务花费$2315,Opus 4.8花费$1838,而GPT-5.5+Codex最贵仅$566。Fable 5同时因安全分类器"系统性过度拒绝"遭安全研究员批评——免疫学家说"cancer"被判为生物安全风险,微软已限制员工使用该模型。Anthropic随后公开道歉并承诺将降智机制改为可见模式。
为何值得关注:
ALE标志着AI编程Agent评估从"刷榜时代"进入"工程化考试"时代。第一,ALE的设计哲学——让AI操作完整电脑完成真实任务——远比SWE-bench等离线测试更能反映实际工程能力,23.0%的最高分说明AI距离"无人值守编程"还有很长的路。第二,Fable 5性价比垫底暴露了Anthropic的定价困境——模型能力虽强但推理成本高企,在价格战背景下可能丧失企业客户。第三,ALEClaw框架(非模型厂商)以23.0%登顶第一名说明Agent框架层的创新空间仍然巨大,模型能力不是唯一的竞争维度。第四,Anthropic同时面临"过度审查"和"安全争议"的双重夹击——一边是开发者抱怨护栏太严,一边是安全人士认为不够透明,这种张力将是AI编程工具长期的治理难题。
5. 跨维智能发布Dexterity-BEV,将自动驾驶BEV范式引入具身智能数据基建
事件内容:
6月12-13日,跨维智能在智源大会及相关学术渠道发布了Dexterity-BEV技术方案,首次将自动驾驶领域成熟的BEV(Bird's Eye View)范式引入具身智能操作。该方案将多视角RGB图像、机器人本体状态、目标动作对齐到统一三维空间,把传统2D视觉编码器升级为带顶点图与顶点谱的3D坐标编码。在LIBERO、RoboTwin 2.0仿真及四类真实双臂机器人平台上,传统2D VLA模型在跨视角/跨基座/跨场景扰动下成功率明显下滑,而Dexterity-BEV始终保持稳定表现。行业观察者将其类比为自动驾驶从"猜世界"到"理解世界"的BEV拐点,认为这标志着具身智能正从"堆数据阶段"进入"建数据秩序阶段"。
为何值得关注:
Dexterity-BEV的价值在于方法论层面的突破。第一,具身智能当前最大的瓶颈不是模型不够大,而是数据不够"有序"——不同机器人平台、不同视角、不同场景的数据难以统一利用。BEV范式通过将一切对齐到统一三维空间,解决了数据碎片化问题。第二,自动驾驶行业已经验证了BEV范式对感知系统泛化能力的巨大提升(特斯拉FSD的核心技术路线),将其迁移到具身智能是技术跨界的聪明做法。第三,跨场景扰动下的稳定表现直接关系到具身智能的商业化落地——工厂、家庭、物流等不同场景的机器人如果各自需要独立训练,成本将是天价。第四,这提醒我们具身智能的竞争不仅是"造更好的机器人本体",更是"建更好的数据基础设施"——谁先建立统一的数据表征标准,谁就可能定义行业规则。
每日 09:00 自动更新 | 侧重 AI Coding 与具身智能方向