AI 资讯 🤖
2026-06-04 | 自动收集
1. Google DeepMind 发布 Gemma 4 12B:原生音频多模态模型,可在 16GB 笔记本上运行
Google DeepMind 正式发布 Gemma 4 12B,一款无编码器的原生多模态模型,原生支持音频输入。该模型能在 16GB 内存的笔记本电脑上流畅运行,极大降低了高质量多模态 AI 的硬件门槛。Gemma 4 12B 同时支持文本、图像和音频理解,是开源社区的一次重大升级。
- 来源: MarkTechPost
- 来源: Google Blog
2. NVIDIA 发布 Cosmos 3:双塔 MoT 基础模型,统一物理推理与世界生成
NVIDIA 在 CVPR 2026 上发布 Cosmos 3,一款基于双塔混合变换器(Mixture-of-Transformers)的基础模型,首次将物理推理、世界生成和动作生成统一在单一框架下。Cosmos 3 在物理 AI 领域实现了重大突破,为自主驾驶、机器人技术和视觉 AI 提供了强大的基础能力。
- 来源: MarkTechPost
3. NVIDIA 发布 CVPR 研究成果:高级抓取、自主驾驶与 Agent 规模化训练
NVIDIA 研究团队在 CVPR 2026 上展示了一系列前沿成果,包括更精准的机器人抓取技术、更智能的自主驾驶决策系统以及新型 AI Agent 规模化训练方法。这些成果标志着物理 AI 从实验室走向工业应用的关键进展。
- 来源: NVIDIA Blog
- 来源: NVIDIA Blog
4. OpenAI 为 GPT-Rosalind 引入新能力
OpenAI 宣布为其 GPT-Rosalind 模型系列引入多项新能力,进一步扩展其在科学研究领域的应用范围。此次更新包括增强的数学推理、代码生成和实验方案设计能力。GPT-Rosalind 是 OpenAI 面向科学研究推出的专用模型。
- 来源: OpenAI
5. OpenAI 发布公开政策议程与前沿 AI 民主治理蓝图
OpenAI 发布了全面的公共政策议程,涵盖 AI 安全、经济影响和全球治理框架。同一天还发布了《前沿 AI 民主治理蓝图》,提出了一套多利益相关方参与的 AI 治理模型。这两份文件标志着 OpenAI 在 AI 治理议题上从被动回应转向主动塑造政策框架。
6. Wasmer 借助 OpenAI Codex 构建边缘计算 Node.js 运行时
OpenAI 展示了 Wasmer 团队如何使用 Codex 构建专为边缘计算优化的 Node.js 运行时。该项目通过在边缘节点上运行 WebAssembly,实现了低延迟的服务器端 JavaScript 执行。这是 Codex 在基础设施软件领域的又一突破性应用。
- 来源: OpenAI
7. Uber 限制 AI 工具(如 Claude Code)的使用以控制成本
Uber 据报开始对其工程师使用 AI 编码工具(如 Claude Code)设置使用上限,以控制快速增长的成本。这标志着大型科技企业在 AI 工具采纳浪潮中开始关注成本效益平衡,也从侧面反映了 AI 编码工具在工程团队的渗透率已达到相当规模。
8. Nous Research 发布 Hermes Desktop:Hermes Agent v0.15.2 原生跨平台桌面端
Nous Research 正式发布 Hermes Desktop,一个基于 Hermes Agent v0.15.2 的原生跨平台桌面前端,支持流式工具输出渲染。Hermes Desktop 为 AI Agent 提供了桌面级交互体验,用户可本地运行 Agent 并实时观察工具的流式执行过程。
- 来源: MarkTechPost
9. Microsoft Build 2026:AI 自主路线全面铺开
The Rundown AI 分析了 Microsoft Build 2026 大会,指出 Microsoft 正在构建一条独立的 AI 路径——从 Windows 层的 AI 集成到 Azure 的模型服务,再到企业级 Agent 平台。Microsoft 正努力减少对单一模型提供商的依赖,构建从芯片到应用的完整 AI 栈。
- 来源: The Rundown AI
10. Hugging Face 博文:将直接偏好优化(DPO)拓展到聊天机器人之外
一篇来自 Hugging Face 社区的深度技术文章探讨了如何将直接偏好优化(DPO)应用到聊天机器人之外的领域——包括代码生成、图像合成和机器人控制。DPO 作为一种无需强化学习即可对齐模型偏好的方法,正在被研究者们发现其更广泛的应用潜力。
- 来源: Hugging Face
