AI HOT 日报 · 2026年6月29日

数据来自 aihot.virxact.com | 共 7 条精选

模型发布/更新

1. Grok 4.5 私测于 SpaceX 和 Tesla，性能接近 Opus

Grok 4.5 基于 1.5T V9 基础模型，并在补充训练中加入 Cursor 数据，现已在 SpaceX 和 Tesla 进入私测。初步评估显示其性能接近甚至超越 Opus。强化学习仍在持续显著改进模型，Grok Build 工具链也在日益完善。今年 SpaceX 将每月发布完全从头训练的新模型。

— X：Elon Musk (@elonmusk, xAI)
🔗 查看原文

2. 新浪开源 VibeThinker-3B：推理可压缩，事实知识不能

新浪发布仅 3B 参数的 VibeThinker-3B，在 AIME26 等数学编程基准上持平 DeepSeek V3.2 等大 200–333 倍的模型，LiveCodeBench 超越所有 20B 以下模型，LeetCode 竞赛解决 123/128 题超过 GPT-5.2、Kimi K2.5 等。但知识密集型 GPQA-Diamond 大幅落后。

模型基于阿里 Qwen2.5-Coder-3B，经 SFT、强化学习、自蒸馏等多阶段后训练。研究提出「参数压缩-覆盖假说」：逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。

— The Decoder：AI News
🔗 查看原文

产品发布/更新

3. Wayfinder Router：在本地和托管大语言模型之间进行确定性查询路由

Wayfinder Router 通过分析提示词的结构（长度、标题、列表、代码）和措辞（证明、数学、硬约束），在微秒级完成路由决策，完全离线且无需调用其他模型。默认仅使用结构特征，词汇线索因盲测未泛化而默认为关闭。

对比依赖模型调用的路由器（如 RouteLLM、NotDiamond），它避免了延迟、成本和随机性。用户可在自有数据上校准评分阈值。支持任何 OpenAI 兼容 API（含 Ollama、Anthropic、Groq、vLLM 等），可自托管。

— Hacker News 热门
🔗 查看原文

4. Adrafinil：仅在 AI agent 工作时阻止 Mac 睡眠的菜单栏工具

Adrafinil 是一款 macOS 菜单栏应用，仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠（包括合盖睡眠）。无 agent 工作时，合盖后 Mac 正常睡眠。

它通过各 agent 的钩子系统调用 CLI，往返延迟低于 50ms，支持引用计数断言、热切出（温度阈值强制释放）、空闲释放及进程嗅探。需要 macOS Tahoe 26.4，Xcode 26+ 构建。

— Hacker News 热门
🔗 查看原文

论文研究

5. 仅三个 AI 模型在 500 天创业测试中盈利超过起始资本

普林斯顿大学推出 CEO-Bench 基准测试，让 AI 智能体在模拟环境中运营订阅软件公司 NovaMind 500 天，起始资金 100 万美元。14 个测试模型中，仅 Claude Fable 5（最佳轮次盈利 4715 万美元）、Claude Opus 4.8（2780 万美元）和 GPT-5.5（2130 万美元）在最佳运行中超过起始资本。

一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到 1576 万美元，超越除上述三款外的所有模型。多数模型无法保持连贯策略，在模拟结束前破产。该测试旨在衡量 AI 的长期战略决策能力。

— The Decoder：AI News
🔗 查看原文

技巧与观点

6. 四大顶级 AI 对决《文明 VI》：Claude 核平法国仍输，暴露感知与执行短板

英国前首相府数据科学家 Liam Wilkinson 搭建 76 个 MCP 工具，将 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等四个模型放入《文明 VI》进行 23 场对局。Claude 扮演葡萄牙时，因法国文化胜利逼近，花 50 回合研发核弹核平图卢兹，但法国最终以外交胜利获胜。

Wilkinson 发现：AI 主动检查全局状态仅占 1-2%（感知盲区），计划后 10 回合内执行率仅 48-66%（知行差距）。结论是智商非瓶颈，感知与执行才是关键。

— IT之家
🔗 查看原文

7. Artifacts 22：Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

开源模型生态正变得更多元，参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs；科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机。

NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16，采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型。

— Nathan Lambert：Interconnects
🔗 查看原文

📋 本文由 AI HOT 日报自动生成，每日早 8:00（北京时间）更新。访问 aihot.virxact.com 查看更多 AI 资讯。

AI HOT 日报 · 2026年6月29日

AI HOT 日报 · 2026年6月29日

模型发布/更新

1. Grok 4.5 私测于 SpaceX 和 Tesla，性能接近 Opus

2. 新浪开源 VibeThinker-3B：推理可压缩，事实知识不能

产品发布/更新

3. Wayfinder Router：在本地和托管大语言模型之间进行确定性查询路由

4. Adrafinil：仅在 AI agent 工作时阻止 Mac 睡眠的菜单栏工具

论文研究

5. 仅三个 AI 模型在 500 天创业测试中盈利超过起始资本

技巧与观点

6. 四大顶级 AI 对决《文明 VI》：Claude 核平法国仍输，暴露感知与执行短板

7. Artifacts 22：Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

精选工具

开发者工具

免费在线 JSON 格式化、验证和美化工具

Unix 时间戳转换器

JSON Diff 工具

文本差异对比工具

Meta 标签获取器

SQL 转表格工具

URL 元数据提取器

JSON 验证和格式化工具

Telegram Chat ID 查找器