AI HOT 日报 · 2026年7月3日

AI HOT 日报 · 2026-07-03

今日共 24 条精选，覆盖产品发布、行业动态、论文研究与技巧观点四大版块。

产品发布/更新

AI 版支付宝开放公测，蚂蚁阿宝无需邀请码即可体验 — IT之家
支付宝阿宝 AI 助手正式开放公测，iOS/安卓可搜索"阿宝"体验，以对话方式安排办事（如"查公积金"自动匹配服务入口），资金变动与支付需用户本人确认。
https://www.ithome.com/0/971/469.htm
Google Health API 推出 CLI：ghealth 是一款针对 Fitbit 数据的开源工具 — MarkTechPost
开源命令行工具，支持 40 种已验证数据类型的结构化 JSON 输出，Agent 优先设计，覆盖 Fitbit、Pixel Watch 及第三方设备。
https://www.marktechpost.com/2026/07/02/the-google-health-api-got-a-cli-ghealth-is-an-open-source-tool-for-your-fitbit-air-data
Senior SWE-Bench：评估 AI 智能体作为高级工程师的基准测试 — Hacker News 热门
开源基准测试评估 AI 智能体完成高级工程师级别任务的能力，Claude Opus 4.8 通过率 24.0%，最强前沿模型在超 75% 任务中未达高级工程师水平。
https://senior-swe-bench.snorkel.ai/
Kimi K2.7 Code 已在 GitHub Copilot 上正式发布 — Hacker News 热门
Kimi K2.7 Code 成为 Copilot 模型选择器首个可选的开源权重模型，由 GitHub 托管于 Azure，按用量计费，逐步向 Pro/Pro+/Max 用户推送。
https://github.blog/changelog/2026-07-01-kimi-k2-7-is-now-available-in-github-copilot
阿里巴巴发布 Page Agent：开源 JavaScript 库实现网页 DOM 自然语言操控 — MarkTechPost
嵌入网页后可通过自然语言指令直接操作 DOM，不依赖截图或多模态模型，采用 MIT 许可证，适合 AI 副驾、智能表单填充等场景。
https://www.marktechpost.com/2026/07/02/meet-alibabas-page-agent-a-javascript-in-page-gui-agent-that-controls-web-interfaces-with-natural-language-through-the-dom
昆仑万维天工 3.2 发布 Skywork Tags，AI 智能体加入工作群聊 — 昆仑万维
将 AI 智能体以团队成员身份接入 Slack、飞书、钉钉等 IM 工具，团队在群中 @Skywork 即可参与讨论，共享版 Agent 越用越强。
https://mp.weixin.qq.com/s/OqL6ID-mAel8XN-slYgXOA
Claude Enterprise 新增用量与成本分析及支出管控功能 — Claude Blog
仪表板可按群组和用户分析用量与成本，支持支出限额告警，Analytics API 可接入 Datadog 和 CloudZero。
https://claude.com/blog/giving-admins-more-visibility-and-control-over-claude-usage-and-spend

行业动态

Microsoft 成立"Frontier Company"，斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场 — The Decoder
新业务部门将工程师派驻客户现场"共同设计、共同创新、部署并持续改进 AI 系统"，定位为 OpenAI/Anthropic 的平台中立替代方案。
https://the-decoder.com/microsoft-launches-2-5-billion-frontier-company-to-embed-6000-ai-engineers-inside-enterprise-clients
Anthropic 与五角大楼控权之争：Claude 军事用途护栏分歧 — X (@kimmonismus)
Anthropic 要求禁止全自主武器及某些监控用途，五角大楼希望 Claude 可用于所有合法国家安全场景，随后 Anthropic 被列为供应链风险。
https://x.com/kimmonismus/status/2072718147279335507
OpenAI 提议美国政府持股 5%，估值 426 亿美元 — X (@testingcatalog)
OpenAI 提议向美国政府提供公司 5% 股份，按近期 8520 亿美元估值计算价值约 426 亿美元，Sam Altman 称这是与公众分享 AI 发展红利的最佳方式。
https://x.com/testingcatalog/status/2072585845542969583
花旗、Adobe 等企业限制员工使用 AI 旗舰模型以控制成本 — IT之家
Atlassian、Adobe、亚马逊等限制员工使用 AI 工具，花旗禁用 Claude Opus 4.6/4.7 及 GPT-5.5，Atlassian AI 月支出从 500 万飙升至 1500 万美元。
https://www.ithome.com/0/971/937.htm
快手可灵 AI 获初始投资者 20.28 亿美元注资，投后估值 180 亿美元 — IT之家
21 名初始投资者以 138.24 亿元人民币注资，15 名额外投资者追加 52.235 亿元，预计未来 12 个月启动赴港上市。
https://www.ithome.com/0/971/954.htm
谷歌 AI 建设导致 2025 年用电量增长 37% — Ars Technica
数据中心全年消耗超 4200 万兆瓦时，超过新西兰、丹麦等国总用电量，自 2019 年以来总用电量增长超 250%。
https://arstechnica.com/ai/2026/07/googles-ai-buildout-drove-37-increase-in-electricity-use-in-2025

论文研究

关于 Mythos 和网络安全的讨论并非炒作 — X (@emollick)
Ethan Mollick 评论：关于 Mythos 和网络安全的讨论并非炒作，使用 Fable 进行自主工作的人可能已经认识到这一点。
https://x.com/emollick/status/2072778376494895139
多智能体团队阻碍专家发挥 — Apple ML Research
自组织多智能体系统中，团队无法有效利用专家成员专业知识，性能损失最高达 41.1%，失败主因是"整合性妥协"——平均化专家与非专家观点。
https://machinelearning.apple.com/research/multi-agent-teams-experts
RL 微调 VLM 的鲁棒性与思维链一致性研究 — Apple ML Research
简单文本扰动会显著降低 VLM 鲁棒性和置信度，微调提升基准准确率但侵蚀 CoT 可靠性，引入忠实性感知奖励可恢复对齐。
https://machinelearning.apple.com/research/robustness-chain-thought-consistency
VideoFlexTok：可变长度粗到细视频分词 — Apple ML Research
提出可变长度 token 序列的视频表示方法，1.1B 参数达到可比生成质量，处理 10 秒视频仅需 672 个 token，比同等 3D 网格分词器少 8 倍。
https://machinelearning.apple.com/research/videoflextok

技巧与观点

browser-use 发布开源 AI 视频剪辑 Skill「video-use」 — X (@shao__meng)
让 LLM 通过转写、PNG 帧图、JSON EDL 和 ffmpeg 渲染完成视频剪辑，支持 HDR 映射、竖屏缩放、两-pass loudnorm 等专业特性。
https://x.com/shao__meng/status/2072644710523691110
Emil Kowalski 发布设计工程师 Skills，让 AI 编码工具具备 UI 动画审美 — X (@shao__meng)
三个 Skill 让 Coding Agent 具备资深设计工程师审美：动画须有理由、高频操作禁用动画、UI 动画控制在 300ms 内、仅动画 transform 和 opacity。
https://x.com/shao__meng/status/2072484635955900792
Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍 — The Decoder
RLI 衡量 AI 智能体完成 240 个付费自由职业项目的质量比例，Fable 5 达 16.1%，超过 Opus 4.8（8.3%）和 GPT-5.5（6.3%）。
https://the-decoder.com/ai-agents-can-now-complete-16-percent-of-freelance-jobs-at-pro-quality-up-from-2-5-percent-eight-months-ago
Fable 5 仅 4.44 美元搭建 Rube Goldberg 机器 — X (@OpenRouter)
用 Fable 5 构建的鲁布·戈德堡机械，成本仅 4.44 美元。
https://x.com/OpenRouter/status/2072738704922439689
千问团队朱达：C 端 Agent Harness 的"多快好省"工程哲学与主动服务探索 — 千问 APP
千问通用复杂任务 Agent 总结"多快好省"方法论，Token 消耗仅为海外产品 1/10，探索从被动响应转向主动服务。
https://mp.weixin.qq.com/s/l70iUM0bIpG9EdV9Px7QPQ
Agent 辅助的 SGLang 开发：初步探索 — LMSYS Blog
SGLang 团队将 LLM 服务、GPU 内核、扩散管道等工作流编码为可执行 SKILL.md 文件，长期优化转向 Loop Engineering。
https://www.lmsys.org/blog/2026-07-02-agent-assisted-sglang-development
借用夜晚：将闲置推理 GPU 回收用于研究 — Runway News
Runway 开发 deckard 容量控制器，在生产推理集群与研究集群间动态重分配 GPU，使夜间闲置 GPU 回归研究、白天排队等待缩短。
https://runwayml.com/news/borrowing-the-night-reclaiming-idle-inference-gpus-for-research

数据来源：aihot.virxact.com

AI HOT 日报 · 2026年7月3日

产品发布/更新

行业动态

论文研究

技巧与观点

精选工具

图像编辑

在线图片水印工具

图片智能保护