AI 资讯 🤖

2026-06-04 | 自动收集

1. Google DeepMind 发布 Gemma 4 12B：原生音频多模态模型，可在 16GB 笔记本上运行

Google DeepMind 正式发布 Gemma 4 12B，一款无编码器的原生多模态模型，原生支持音频输入。该模型能在 16GB 内存的笔记本电脑上流畅运行，极大降低了高质量多模态 AI 的硬件门槛。Gemma 4 12B 同时支持文本、图像和音频理解，是开源社区的一次重大升级。

来源: MarkTechPost
来源: Google Blog

2. NVIDIA 发布 Cosmos 3：双塔 MoT 基础模型，统一物理推理与世界生成

NVIDIA 在 CVPR 2026 上发布 Cosmos 3，一款基于双塔混合变换器（Mixture-of-Transformers）的基础模型，首次将物理推理、世界生成和动作生成统一在单一框架下。Cosmos 3 在物理 AI 领域实现了重大突破，为自主驾驶、机器人技术和视觉 AI 提供了强大的基础能力。

来源: MarkTechPost

3. NVIDIA 发布 CVPR 研究成果：高级抓取、自主驾驶与 Agent 规模化训练

NVIDIA 研究团队在 CVPR 2026 上展示了一系列前沿成果，包括更精准的机器人抓取技术、更智能的自主驾驶决策系统以及新型 AI Agent 规模化训练方法。这些成果标志着物理 AI 从实验室走向工业应用的关键进展。

来源: NVIDIA Blog
来源: NVIDIA Blog

4. OpenAI 为 GPT-Rosalind 引入新能力

OpenAI 宣布为其 GPT-Rosalind 模型系列引入多项新能力，进一步扩展其在科学研究领域的应用范围。此次更新包括增强的数学推理、代码生成和实验方案设计能力。GPT-Rosalind 是 OpenAI 面向科学研究推出的专用模型。

来源: OpenAI

5. OpenAI 发布公开政策议程与前沿 AI 民主治理蓝图

OpenAI 发布了全面的公共政策议程，涵盖 AI 安全、经济影响和全球治理框架。同一天还发布了《前沿 AI 民主治理蓝图》，提出了一套多利益相关方参与的 AI 治理模型。这两份文件标志着 OpenAI 在 AI 治理议题上从被动回应转向主动塑造政策框架。

来源: OpenAI
来源: OpenAI

6. Wasmer 借助 OpenAI Codex 构建边缘计算 Node.js 运行时

OpenAI 展示了 Wasmer 团队如何使用 Codex 构建专为边缘计算优化的 Node.js 运行时。该项目通过在边缘节点上运行 WebAssembly，实现了低延迟的服务器端 JavaScript 执行。这是 Codex 在基础设施软件领域的又一突破性应用。

来源: OpenAI

7. Uber 限制 AI 工具（如 Claude Code）的使用以控制成本

Uber 据报开始对其工程师使用 AI 编码工具（如 Claude Code）设置使用上限，以控制快速增长的成本。这标志着大型科技企业在 AI 工具采纳浪潮中开始关注成本效益平衡，也从侧面反映了 AI 编码工具在工程团队的渗透率已达到相当规模。

来源: Simon Willison's Weblog

8. Nous Research 发布 Hermes Desktop：Hermes Agent v0.15.2 原生跨平台桌面端

Nous Research 正式发布 Hermes Desktop，一个基于 Hermes Agent v0.15.2 的原生跨平台桌面前端，支持流式工具输出渲染。Hermes Desktop 为 AI Agent 提供了桌面级交互体验，用户可本地运行 Agent 并实时观察工具的流式执行过程。

来源: MarkTechPost

9. Microsoft Build 2026：AI 自主路线全面铺开

The Rundown AI 分析了 Microsoft Build 2026 大会，指出 Microsoft 正在构建一条独立的 AI 路径——从 Windows 层的 AI 集成到 Azure 的模型服务，再到企业级 Agent 平台。Microsoft 正努力减少对单一模型提供商的依赖，构建从芯片到应用的完整 AI 栈。

来源: The Rundown AI

10. Hugging Face 博文：将直接偏好优化（DPO）拓展到聊天机器人之外

一篇来自 Hugging Face 社区的深度技术文章探讨了如何将直接偏好优化（DPO）应用到聊天机器人之外的领域——包括代码生成、图像合成和机器人控制。DPO 作为一种无需强化学习即可对齐模型偏好的方法，正在被研究者们发现其更广泛的应用潜力。

来源: Hugging Face

AI 资讯 🤖 ​

1. Google DeepMind 发布 Gemma 4 12B：原生音频多模态模型，可在 16GB 笔记本上运行 ​

2. NVIDIA 发布 Cosmos 3：双塔 MoT 基础模型，统一物理推理与世界生成 ​

3. NVIDIA 发布 CVPR 研究成果：高级抓取、自主驾驶与 Agent 规模化训练 ​

4. OpenAI 为 GPT-Rosalind 引入新能力 ​

5. OpenAI 发布公开政策议程与前沿 AI 民主治理蓝图 ​

6. Wasmer 借助 OpenAI Codex 构建边缘计算 Node.js 运行时 ​

7. Uber 限制 AI 工具（如 Claude Code）的使用以控制成本 ​

8. Nous Research 发布 Hermes Desktop：Hermes Agent v0.15.2 原生跨平台桌面端 ​

9. Microsoft Build 2026：AI 自主路线全面铺开 ​

10. Hugging Face 博文：将直接偏好优化（DPO）拓展到聊天机器人之外 ​