天眼早报
🤖 AI 大模型
𝕏 Ornith-1.0 开源模型家族发布,多项编码基准达 SOTA
DeepReinforce 开源 Ornith-1.0 系列模型,参数从 9B 到 397B MoE,覆盖多尺寸。旗舰 397B MoE 在 SWE-Bench Verified 上达 82.4%,超越 Claude Opus 4.7,并在 Terminal-Bench 等编码基准取得 SOTA。基于 Gemma 4 和 Qwen 3.5 训练,采用 RL 同时优化任务脚手架与解决方案,全系列 MIT 开源,提供 GGUF 版本,可在 Ollama 中运行。9B 模型也已上线 Hugging Face Spaces 可供试用。
𝕏 OpenAI 发布 Codex 内部使用数据:内部 99.8%输出由 AI 完成
OpenAI 发布的内部数据显示,Codex 已成主要工作 AI,内部输出 99.8% 由 AI 生成。非开发者使用量自 2025 年 8 月增长 189 倍。顶部用户日均运行 71 小时 的 Agent 工作。
𝕏 Anthropic 指控阿里巴巴进行大规模 AI 模型蒸馏攻击
Anthropic 指控 阿里巴巴 发动了“迄今为止最大规模的蒸馏攻击”,称其创建近 2.5 万个 虚假账户,通过与 Claude 进行 2900 万次 交互来窃取模型能力。
𝕏 美国要求 OpenAI 分批发布 GPT-5.6,转为安全门控发布
据 The Information 报道,特朗普政府 要求 OpenAI 分批发布 GPT-5.6,而非一次性广泛推出。OpenAI 计划先给小型合作伙伴早期访问权,官员逐个审批客户。主要担忧是模型可被用于自动化高级网络攻击。Altman 向员工强调合规优先。距 Anthropic 模型下架不足两周。
𝕏 微软 MAI-Image-2.5 图像模型排名第二,仅次 OpenAI
Microsoft 发布 MAI-Image-2.5 系列图像模型,在 Artificial Analysis 文本到图像排行榜位列 #2,图像编辑排名 #3,定价每千张 $48,已集成至 PowerPoint 和 OneDrive。
𝕏 GLM-5.2 多基准表现亮眼,超越 Claude Opus 4.8
Zhipu AI 的 GLM-5.2(含 Max 版本)在多个基准上取得领先:Code Arena 前端榜单达 1595 分,超越 Claude Opus 4.8 逼近 Fable 5;PostTrainBench 上以 34.29% 超越 Opus 4.8(34.08%),且 84 次运行零失败;Vending-Bench 排名第二,每次发布近乎线性提升;论文复现任务中成本仅 $6.21,比 Opus 4.8 低 7 倍。Databricks 优化后推理速度达 392 token/s。后续版本 GLM-5.3 将进行专家化、强化学习,可能训练 1T+ 参数模型。
𝕏 Gemini 3.5 Flash 正式支持 Computer Use 工具
Google 宣布 Gemini 3.5 Flash 支持原生 Computer Use,开发者可构建跨浏览器、桌面和移动端的自定义 Agent。提供显式用户确认、自动任务停止、提示注入检测等安全机制。新能力包括移动/OS 原生支持、意图参数、人类介入接管。即日起可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用,适用于 QA 测试、业务流程自动化等场景。
𝕏 Liquid AI 发布 LFM2.5-230M 模型,小参数性能强劲
Liquid AI 发布 LFM2.5-230M,其最小模型仅 230M 参数,支持工具调用和结构化数据提取,在性价比上超越同尺寸模型两倍性能,已在 SGLang 上获得 Day 0 支持。
𝕏 Dawn Song 加入 Meta,负责 AI 安全研究
UC Berkeley 教授 Dawn Song 宣布加入 Meta Superintelligence Labs,担任 AI 研究副总裁。她同时带来其联合创立的 Virtue AI 团队,专注于 AI 安全与可信 AI,应对 Agent 时代复杂的安全挑战。
🔵 两位谷歌顶级 AI 研究员计划跳槽至 Anthropic
据知情人士,谷歌 两位顶级 AI 研究员计划离职加入 Anthropic,进一步加剧搜索巨头的人才流失。
𝕏 Arena 智能体排行榜更新:Fable 5 领先,GLM-5.2 逼近
Arena 发布最新智能体排行榜,Anthropic 的 Claude Fable 5 在 1.6 万次 用户评测中排名第一(已暂停),OpenAI 紧随其后,智谱 GLM-5.2(Max)通过 1.3 万次 评测表现接近,标志着中美前沿模型差距缩小。
𝕏 Google 重组 AI 编程团队应对人才流失
Google 重组 AI 编程团队,试图在编码市场追赶 Anthropic。此前 Noam Shazeer 跳槽 OpenAI、John Jumper 加入 Anthropic,给 Google 带来人才与性能压力。
𝕏 Hugging Face 突破 1 亿美元 ARR
Hugging Face 创始人 Clem Delangue 宣布平台 ARR 突破 1 亿美元,同时保持 97% 用户免费开源,存储和提供数百 PB 模型与数据集。
𝕏 Gemma 4 下载量突破 2 亿次
Gemma 4 发布仅 2.5 个月,总下载量达到 2 亿次。作为对比,整个 Gemma 系列在 Gemma 3 发布时累计 1 亿次 下载,社区采用速度惊人。
𝕏 分析:OpenAI 模型任务时长分布停滞,reward hacking 或为原因
OpenAI 模型请求按时间-时长分布自 3 月以来未变化,暗示任务难度提升受阻。Anthropic Opus 系列 reward hacking 增益从 0%增至 10%,用户感觉模型不能处理更长任务。
𝕏 xAI 因结构性问题无法竞争前沿
Yann LeCun 在接受 CNBC 采访时表示,xAI 因创始团队全部离职、无法招募顶尖研究人员,虽然拥有大规模算力集群,但已 无法在前沿模型竞争中获胜,目前只能出租算力回收成本。
𝕏 豆包 doubao-seedance-2.0-mini 视频生成模型上线
字节跳动 旗下 豆包 推出 doubao-seedance-2.0-mini 视频生成模型,价格比同类产品便宜 3-5 倍,支持 9 张关键帧 R2V,画风更电影感。
𝕏 小米 MiMo V2.5 Pro UltraSpeed Beta 扩展试用
小米 MiMo V2.5 Pro UltraSpeed 测试版扩展试用窗口,达到 1000 tokens/s 超低延迟推理,已有 6.6 万 份申请,覆盖金融、法律、电信等领域。
𝕏 Gemma 4 可在设备上运行
Gemma 4 已推出设备端版本,可在本地运行,人人可用。
𝕏 Copilot for Excel 新增技能功能,支持团队专业知识扩展
微软 CEO Satya Nadella 宣布将 skills 技能 带入 Copilot for Excel,允许团队将专业知识嵌入每个工作表,实现规模化复用。
EVENT-DRIVEN INTELLIGENCE
免费先跟踪重点,再决定是否升级
每篇公开内容都对应三步:订阅每日情报、查看同主题历史上下文、升级 Pro 解锁搜索、研究和事件详情。