AI HOT 日报 · 2026年6月29日
数据来自 aihot.virxact.com | 共 7 条精选
模型发布/更新
1. Grok 4.5 私测于 SpaceX 和 Tesla,性能接近 Opus
Grok 4.5 基于 1.5T V9 基础模型,并在补充训练中加入 Cursor 数据,现已在 SpaceX 和 Tesla 进入私测。初步评估显示其性能接近甚至超越 Opus。强化学习仍在持续显著改进模型,Grok Build 工具链也在日益完善。今年 SpaceX 将每月发布完全从头训练的新模型。
— X:Elon Musk (@elonmusk, xAI)
🔗 查看原文
2. 新浪开源 VibeThinker-3B:推理可压缩,事实知识不能
新浪发布仅 3B 参数的 VibeThinker-3B,在 AIME26 等数学编程基准上持平 DeepSeek V3.2 等大 200–333 倍的模型,LiveCodeBench 超越所有 20B 以下模型,LeetCode 竞赛解决 123/128 题超过 GPT-5.2、Kimi K2.5 等。但知识密集型 GPQA-Diamond 大幅落后。
模型基于阿里 Qwen2.5-Coder-3B,经 SFT、强化学习、自蒸馏等多阶段后训练。研究提出「参数压缩-覆盖假说」:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
— The Decoder:AI News
🔗 查看原文
产品发布/更新
3. Wayfinder Router:在本地和托管大语言模型之间进行确定性查询路由
Wayfinder Router 通过分析提示词的结构(长度、标题、列表、代码)和措辞(证明、数学、硬约束),在微秒级完成路由决策,完全离线且无需调用其他模型。默认仅使用结构特征,词汇线索因盲测未泛化而默认为关闭。
对比依赖模型调用的路由器(如 RouteLLM、NotDiamond),它避免了延迟、成本和随机性。用户可在自有数据上校准评分阈值。支持任何 OpenAI 兼容 API(含 Ollama、Anthropic、Groq、vLLM 等),可自托管。
— Hacker News 热门
🔗 查看原文
4. Adrafinil:仅在 AI agent 工作时阻止 Mac 睡眠的菜单栏工具
Adrafinil 是一款 macOS 菜单栏应用,仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠(包括合盖睡眠)。无 agent 工作时,合盖后 Mac 正常睡眠。
它通过各 agent 的钩子系统调用 CLI,往返延迟低于 50ms,支持引用计数断言、热切出(温度阈值强制释放)、空闲释放及进程嗅探。需要 macOS Tahoe 26.4,Xcode 26+ 构建。
— Hacker News 热门
🔗 查看原文
论文研究
5. 仅三个 AI 模型在 500 天创业测试中盈利超过起始资本
普林斯顿大学推出 CEO-Bench 基准测试,让 AI 智能体在模拟环境中运营订阅软件公司 NovaMind 500 天,起始资金 100 万美元。14 个测试模型中,仅 Claude Fable 5(最佳轮次盈利 4715 万美元)、Claude Opus 4.8(2780 万美元)和 GPT-5.5(2130 万美元)在最佳运行中超过起始资本。
一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到 1576 万美元,超越除上述三款外的所有模型。多数模型无法保持连贯策略,在模拟结束前破产。该测试旨在衡量 AI 的长期战略决策能力。
— The Decoder:AI News
🔗 查看原文
技巧与观点
6. 四大顶级 AI 对决《文明 VI》:Claude 核平法国仍输,暴露感知与执行短板
英国前首相府数据科学家 Liam Wilkinson 搭建 76 个 MCP 工具,将 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等四个模型放入《文明 VI》进行 23 场对局。Claude 扮演葡萄牙时,因法国文化胜利逼近,花 50 回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。
Wilkinson 发现:AI 主动检查全局状态仅占 1-2%(感知盲区),计划后 10 回合内执行率仅 48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。
— IT之家
🔗 查看原文
7. Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度
开源模型生态正变得更多元,参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs;科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机。
NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16,采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型。
— Nathan Lambert:Interconnects
🔗 查看原文
📋 本文由 AI HOT 日报自动生成,每日早 8:00(北京时间)更新。访问 aihot.virxact.com 查看更多 AI 资讯。


