AI HOT 日报 · 2026年7月3日

gusi
gusi
·5 min read

AI HOT 日报 · 2026-07-03

今日共 24 条精选,覆盖产品发布、行业动态、论文研究与技巧观点四大版块。

产品发布/更新

  1. AI 版支付宝开放公测,蚂蚁阿宝无需邀请码即可体验 — IT之家
    支付宝阿宝 AI 助手正式开放公测,iOS/安卓可搜索"阿宝"体验,以对话方式安排办事(如"查公积金"自动匹配服务入口),资金变动与支付需用户本人确认。
    https://www.ithome.com/0/971/469.htm

  2. Google Health API 推出 CLI:ghealth 是一款针对 Fitbit 数据的开源工具 — MarkTechPost
    开源命令行工具,支持 40 种已验证数据类型的结构化 JSON 输出,Agent 优先设计,覆盖 Fitbit、Pixel Watch 及第三方设备。
    https://www.marktechpost.com/2026/07/02/the-google-health-api-got-a-cli-ghealth-is-an-open-source-tool-for-your-fitbit-air-data

  3. Senior SWE-Bench:评估 AI 智能体作为高级工程师的基准测试 — Hacker News 热门
    开源基准测试评估 AI 智能体完成高级工程师级别任务的能力,Claude Opus 4.8 通过率 24.0%,最强前沿模型在超 75% 任务中未达高级工程师水平。
    https://senior-swe-bench.snorkel.ai/

  4. Kimi K2.7 Code 已在 GitHub Copilot 上正式发布 — Hacker News 热门
    Kimi K2.7 Code 成为 Copilot 模型选择器首个可选的开源权重模型,由 GitHub 托管于 Azure,按用量计费,逐步向 Pro/Pro+/Max 用户推送。
    https://github.blog/changelog/2026-07-01-kimi-k2-7-is-now-available-in-github-copilot

  5. 阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控 — MarkTechPost
    嵌入网页后可通过自然语言指令直接操作 DOM,不依赖截图或多模态模型,采用 MIT 许可证,适合 AI 副驾、智能表单填充等场景。
    https://www.marktechpost.com/2026/07/02/meet-alibabas-page-agent-a-javascript-in-page-gui-agent-that-controls-web-interfaces-with-natural-language-through-the-dom

  6. 昆仑万维天工 3.2 发布 Skywork Tags,AI 智能体加入工作群聊 — 昆仑万维
    将 AI 智能体以团队成员身份接入 Slack、飞书、钉钉等 IM 工具,团队在群中 @Skywork 即可参与讨论,共享版 Agent 越用越强。
    https://mp.weixin.qq.com/s/OqL6ID-mAel8XN-slYgXOA

  7. Claude Enterprise 新增用量与成本分析及支出管控功能 — Claude Blog
    仪表板可按群组和用户分析用量与成本,支持支出限额告警,Analytics API 可接入 Datadog 和 CloudZero。
    https://claude.com/blog/giving-admins-more-visibility-and-control-over-claude-usage-and-spend

行业动态

  1. Microsoft 成立"Frontier Company",斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场 — The Decoder
    新业务部门将工程师派驻客户现场"共同设计、共同创新、部署并持续改进 AI 系统",定位为 OpenAI/Anthropic 的平台中立替代方案。
    https://the-decoder.com/microsoft-launches-2-5-billion-frontier-company-to-embed-6000-ai-engineers-inside-enterprise-clients

  2. Anthropic 与五角大楼控权之争:Claude 军事用途护栏分歧 — X (@kimmonismus)
    Anthropic 要求禁止全自主武器及某些监控用途,五角大楼希望 Claude 可用于所有合法国家安全场景,随后 Anthropic 被列为供应链风险。
    https://x.com/kimmonismus/status/2072718147279335507

  3. OpenAI 提议美国政府持股 5%,估值 426 亿美元 — X (@testingcatalog)
    OpenAI 提议向美国政府提供公司 5% 股份,按近期 8520 亿美元估值计算价值约 426 亿美元,Sam Altman 称这是与公众分享 AI 发展红利的最佳方式。
    https://x.com/testingcatalog/status/2072585845542969583

  4. 花旗、Adobe 等企业限制员工使用 AI 旗舰模型以控制成本 — IT之家
    Atlassian、Adobe、亚马逊等限制员工使用 AI 工具,花旗禁用 Claude Opus 4.6/4.7 及 GPT-5.5,Atlassian AI 月支出从 500 万飙升至 1500 万美元。
    https://www.ithome.com/0/971/937.htm

  5. 快手可灵 AI 获初始投资者 20.28 亿美元注资,投后估值 180 亿美元 — IT之家
    21 名初始投资者以 138.24 亿元人民币注资,15 名额外投资者追加 52.235 亿元,预计未来 12 个月启动赴港上市。
    https://www.ithome.com/0/971/954.htm

  6. 谷歌 AI 建设导致 2025 年用电量增长 37% — Ars Technica
    数据中心全年消耗超 4200 万兆瓦时,超过新西兰、丹麦等国总用电量,自 2019 年以来总用电量增长超 250%。
    https://arstechnica.com/ai/2026/07/googles-ai-buildout-drove-37-increase-in-electricity-use-in-2025

论文研究

  1. 关于 Mythos 和网络安全的讨论并非炒作 — X (@emollick)
    Ethan Mollick 评论:关于 Mythos 和网络安全的讨论并非炒作,使用 Fable 进行自主工作的人可能已经认识到这一点。
    https://x.com/emollick/status/2072778376494895139

  2. 多智能体团队阻碍专家发挥 — Apple ML Research
    自组织多智能体系统中,团队无法有效利用专家成员专业知识,性能损失最高达 41.1%,失败主因是"整合性妥协"——平均化专家与非专家观点。
    https://machinelearning.apple.com/research/multi-agent-teams-experts

  3. RL 微调 VLM 的鲁棒性与思维链一致性研究 — Apple ML Research
    简单文本扰动会显著降低 VLM 鲁棒性和置信度,微调提升基准准确率但侵蚀 CoT 可靠性,引入忠实性感知奖励可恢复对齐。
    https://machinelearning.apple.com/research/robustness-chain-thought-consistency

  4. VideoFlexTok:可变长度粗到细视频分词 — Apple ML Research
    提出可变长度 token 序列的视频表示方法,1.1B 参数达到可比生成质量,处理 10 秒视频仅需 672 个 token,比同等 3D 网格分词器少 8 倍。
    https://machinelearning.apple.com/research/videoflextok

技巧与观点

  1. browser-use 发布开源 AI 视频剪辑 Skill「video-use」 — X (@shao__meng)
    让 LLM 通过转写、PNG 帧图、JSON EDL 和 ffmpeg 渲染完成视频剪辑,支持 HDR 映射、竖屏缩放、两-pass loudnorm 等专业特性。
    https://x.com/shao__meng/status/2072644710523691110

  2. Emil Kowalski 发布设计工程师 Skills,让 AI 编码工具具备 UI 动画审美 — X (@shao__meng)
    三个 Skill 让 Coding Agent 具备资深设计工程师审美:动画须有理由、高频操作禁用动画、UI 动画控制在 300ms 内、仅动画 transform 和 opacity。
    https://x.com/shao__meng/status/2072484635955900792

  3. Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍 — The Decoder
    RLI 衡量 AI 智能体完成 240 个付费自由职业项目的质量比例,Fable 5 达 16.1%,超过 Opus 4.8(8.3%)和 GPT-5.5(6.3%)。
    https://the-decoder.com/ai-agents-can-now-complete-16-percent-of-freelance-jobs-at-pro-quality-up-from-2-5-percent-eight-months-ago

  4. Fable 5 仅 4.44 美元搭建 Rube Goldberg 机器 — X (@OpenRouter)
    用 Fable 5 构建的鲁布·戈德堡机械,成本仅 4.44 美元。
    https://x.com/OpenRouter/status/2072738704922439689

  5. 千问团队朱达:C 端 Agent Harness 的"多快好省"工程哲学与主动服务探索 — 千问 APP
    千问通用复杂任务 Agent 总结"多快好省"方法论,Token 消耗仅为海外产品 1/10,探索从被动响应转向主动服务。
    https://mp.weixin.qq.com/s/l70iUM0bIpG9EdV9Px7QPQ

  6. Agent 辅助的 SGLang 开发:初步探索 — LMSYS Blog
    SGLang 团队将 LLM 服务、GPU 内核、扩散管道等工作流编码为可执行 SKILL.md 文件,长期优化转向 Loop Engineering。
    https://www.lmsys.org/blog/2026-07-02-agent-assisted-sglang-development

  7. 借用夜晚:将闲置推理 GPU 回收用于研究 — Runway News
    Runway 开发 deckard 容量控制器,在生产推理集群与研究集群间动态重分配 GPU,使夜间闲置 GPU 回归研究、白天排队等待缩短。
    https://runwayml.com/news/borrowing-the-night-reclaiming-idle-inference-gpus-for-research


数据来源:aihot.virxact.com