AI HOT 日报 · 2026年6月24日

gusi

June 24, 2026·5 min read

AI HOT 日报 · 2026年6月24日

数据覆盖 2026-06-23 ~ 2026-06-24，共 23 条精选资讯。

模型发布/更新

1. FastWan-QAD：单卡 5090 上 1.8 秒生成 5 秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

2. 京东全栈开源 JoyAI-VL-Interaction：从"一问一答"走向"边看边说"

京东开源全球首个全栈交互模型 JoyAI-VL-Interaction，获 vLLM-Omni 原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台 Agent 处理。在 58 个真人盲评中，对比豆包视频通话助手胜率 77.6%，对比 Gemini 视频通话助手胜率 87.9%，监控预警场景达 100% 胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统。

3. 网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆

网易有道推出"子曰 4.0" TTS 引擎 Confucius4-TTS，声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆，克隆音色与原声相似度超 85%，任务准确度达 97%。已全量开源（Apache 协议），提供 54GB 资源包供本地部署。

4. Krea 2 技术报告正式发布

Krea AI 发布 Krea 2 技术报告，深入解析创建 Krea 2 所用的数据、架构及训练技巧。

5. 豆包音频生成模型 1.0 发布，重新定义 AI 音频创作

火山引擎正式发布豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条 Prompt 可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。一次支持 2 分钟音频创作，多次延长保持音色统一。已开启火山方舟 API 邀测。

6. Mistral OCR 4

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。

7. Seed2.1 正式发布，深入 AI 生产力

字节 Seed 发布 Seed2.1 系列，面向真实生产力场景的智能体，强化通用 Agent 能力、代码工程交付与多模态理解。Seed2.1 Pro 在 GDPval 基准获最高分，Agents' Last Exam 位列参评模型第一梯队；MobileWorld 手机 GUI 任务最高分。代码能力上，开发者评测相比 Claude Opus 4.6 获 59.1% 胜率。模型已在豆包、TRAE 上线，API 通过火山方舟提供。

产品发布/更新

8. IBM 开源 CUGA：轻量级智能体框架

IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld 和 WebArena 基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式。

9. Runway 推出 Seedance 4K 等三款新模型

Runway 上线 Seedance 4K、Seedance Mini、Kling 3.0 Turbo 三款新视频生成模型。

10. 无限制 OCR：单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。

11. 国内首个高考志愿 AI 测评出炉，千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿 AI 能力测评报告，测试千问高考志愿填报 Agent 四大模块。与 53 位平均从业 4.6 年的人类咨询师对照，千问表现更稳定精确：44 道事实题全对；模拟 10 个志愿中 6 个可录取；100 场匿名对比中专家 58 次倾向千问回答。

12. Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag，一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文，支持多用户交互，经授权后可自动学习其他频道和数据源。开启"环境"行为后，能主动更新未解决的线程或任务。支持异步工作，可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。

13. Claude Code v2.1.187 发布

Claude Code v2.1.187 新增 sandbox.credentials 设置，可阻止沙箱化命令读取凭证和秘密环境变量；模型选择器及相关参数现已支持组织配置的模型限制。修复多项问题：--resume 失败、JSON Schema 结构化输出循环、远程 MCP 工具调用阻塞、韩文/中日韩文本粘贴乱码等。

行业动态

14. Oracle 因 AI 应用裁员 21000 人，债务驱动云基础设施投资

Oracle 在截至 5 月 31 日的财年裁员 21000 人，员工总数降至 141,000 人，降幅 12.9%。公司称 AI 技术的采用导致劳动力缩减，同时重组成本达 18 亿美元，同比增长 481%。Oracle 计划 2026 年通过债务和股权筹集 450 至 500 亿美元，扩建 Oracle Cloud Infrastructure。公司债务超 1200 亿美元。

15. 五眼联盟警告：AI 网络威胁数月内将影响普通用户

五眼联盟（美、英、加、澳、新）网络安全部门联合警告，即将到来的 AI 模型（如 OpenAI 的 GPT-5.5-Cyber、Anthropic 的 Mythos）将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞，大幅缩短安全窗口期。AI 驱动的超个性化钓鱼诈骗已在亚太蔓延，印度 2026 年初勒索软件事件激增 165%。

16. GitHub 联合开源联盟呼吁修改加州 AI 透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟，呼吁对加州 AI 透明度法案（SB 942）进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证，这与开源许可证永久不可撤销的性质冲突。

17. OpenAI 助力 Appia Foundation 推动先进 AI 共享标准建设

OpenAI 通过 Appia Foundation 支持制定先进 AI 的共享标准，涵盖评估框架、安全实践与全球合作。

论文研究

18. AI 招聘工具存在种族偏见和系统性排斥

一项覆盖 340 万人、400 万份申请、150 家雇主和 1700 个职位的大规模实地研究发现，AI 招聘筛选工具存在显著的种族歧视：26% 的黑人申请者和 15% 的亚裔申请者遭遇算法对其族群的系统性排斥。多数雇主依赖同一第三方供应商算法，形成"算法单一文化"。研究呼吁对算法招聘进行独立监管。

19. 九位评委，两个有效投票：相关错误削弱 LLM 评审面板

苹果机器学习研究团队发现，LLM-as-a-judge 面板因模型间高度相关而严重受限。对 7 个模型家族的 9 个前沿大语言模型测试表明，9 位评委实际仅提供约 2 个独立投票的信息量，面板准确率比独立投票理想值低 8-22 个百分点，最佳单一模型的表现已匹敌或超越整个面板。

20. 基于指标依赖的标注饱和：从标签分布中学习

在 ChaosNLI 数据集上微调 NLI 模型，发现所需标注人数因评估指标而异：熵相关（识别分歧项）需约 20-50 个标注者收敛，KL 散度（分布匹配）约 10 个标注者即饱和。结论：标注预算应依据目标评估指标制定。

技巧与观点

21. huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4-6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM-5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。

22. Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity（智能体身份）访问模型，让 Claude 在共享频道中以独立身份工作，而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限，每个频道可覆盖继承的基线设置。该模型为自主多玩家 AI 场景设计。

23. GPT-5 帮助免疫学家解开三年未解之谜

GPT-5 Pro 帮助免疫学家 Derya Unutmaz 解决了一个长达三年的免疫学谜团，揭示了 T 细胞行为的新见解。这一突破可能为癌症和自身免疫疾病研究提供支持。

数据来自 aihot.virxact.com

Featured Tools

Productivity

Calendar

View the calendar with holidays and important dates. Plan your year with our comprehensive calendar that includes major US holidays and observances.

Online Clock

Real-time World Clock for Accurate Timekeeping Across Multiple Time Zones

Analog Clock

Elegant analog clock showcasing the charm of traditional time display

Time Progress

Visualize yearly, monthly, weekly and daily time progress

Countdown Timer

Set custom timers for your tasks and activities

Kanban Board

A browser-based Kanban board with local storage, no login or internet required

AI贺岁新春放「价」，邀您一起抢购热门AI产品。旗舰模型仅需19元起，更有创作Agent、扣子、豆包语音、即梦AI等多款应用&工具产品特惠等您来

方舟 Coding Plan 支持 Doubao、GLM4.7、DeepSeek、Kimi2.5 等模型，工具不限，现在订阅折上9折，低至8.9元，订阅越多越划算！立即订阅：https://volcengine.com/L/UFX3nB__IbQ/ 邀请码：RNBDFW69

搭建您的专属大模型主页

Leave a Comment

Share your thoughts about this page. All fields marked with * are required.

Comments

0