AI HOT 日报 · 2026年6月24日

gusi
gusi
·5 min read

AI HOT 日报 · 2026年6月24日

数据覆盖 2026-06-23 ~ 2026-06-24,共 23 条精选资讯。


模型发布/更新

1. FastWan-QAD:单卡 5090 上 1.8 秒生成 5 秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

🔗 来源

2. 京东全栈开源 JoyAI-VL-Interaction:从"一问一答"走向"边看边说"

京东开源全球首个全栈交互模型 JoyAI-VL-Interaction,获 vLLM-Omni 原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台 Agent 处理。在 58 个真人盲评中,对比豆包视频通话助手胜率 77.6%,对比 Gemini 视频通话助手胜率 87.9%,监控预警场景达 100% 胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统。

🔗 来源

3. 网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆

网易有道推出"子曰 4.0" TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。

🔗 来源

4. Krea 2 技术报告正式发布

Krea AI 发布 Krea 2 技术报告,深入解析创建 Krea 2 所用的数据、架构及训练技巧。

🔗 来源

5. 豆包音频生成模型 1.0 发布,重新定义 AI 音频创作

火山引擎正式发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条 Prompt 可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。一次支持 2 分钟音频创作,多次延长保持音色统一。已开启火山方舟 API 邀测。

🔗 来源

6. Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。

🔗 来源

7. Seed2.1 正式发布,深入 AI 生产力

字节 Seed 发布 Seed2.1 系列,面向真实生产力场景的智能体,强化通用 Agent 能力、代码工程交付与多模态理解。Seed2.1 Pro 在 GDPval 基准获最高分,Agents' Last Exam 位列参评模型第一梯队;MobileWorld 手机 GUI 任务最高分。代码能力上,开发者评测相比 Claude Opus 4.6 获 59.1% 胜率。模型已在豆包、TRAE 上线,API 通过火山方舟提供。

🔗 来源


产品发布/更新

8. IBM 开源 CUGA:轻量级智能体框架

IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld 和 WebArena 基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式。

🔗 来源

9. Runway 推出 Seedance 4K 等三款新模型

Runway 上线 Seedance 4K、Seedance Mini、Kling 3.0 Turbo 三款新视频生成模型。

🔗 来源

10. 无限制 OCR:单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。

🔗 来源

11. 国内首个高考志愿 AI 测评出炉,千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿 AI 能力测评报告,测试千问高考志愿填报 Agent 四大模块。与 53 位平均从业 4.6 年的人类咨询师对照,千问表现更稳定精确:44 道事实题全对;模拟 10 个志愿中 6 个可录取;100 场匿名对比中专家 58 次倾向千问回答。

🔗 来源

12. Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启"环境"行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。

🔗 来源

13. Claude Code v2.1.187 发布

Claude Code v2.1.187 新增 sandbox.credentials 设置,可阻止沙箱化命令读取凭证和秘密环境变量;模型选择器及相关参数现已支持组织配置的模型限制。修复多项问题:--resume 失败、JSON Schema 结构化输出循环、远程 MCP 工具调用阻塞、韩文/中日韩文本粘贴乱码等。

🔗 来源


行业动态

14. Oracle 因 AI 应用裁员 21000 人,债务驱动云基础设施投资

Oracle 在截至 5 月 31 日的财年裁员 21000 人,员工总数降至 141,000 人,降幅 12.9%。公司称 AI 技术的采用导致劳动力缩减,同时重组成本达 18 亿美元,同比增长 481%。Oracle 计划 2026 年通过债务和股权筹集 450 至 500 亿美元,扩建 Oracle Cloud Infrastructure。公司债务超 1200 亿美元。

🔗 来源

15. 五眼联盟警告:AI 网络威胁数月内将影响普通用户

五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的 AI 模型(如 OpenAI 的 GPT-5.5-Cyber、Anthropic 的 Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI 驱动的超个性化钓鱼诈骗已在亚太蔓延,印度 2026 年初勒索软件事件激增 165%。

🔗 来源

16. GitHub 联合开源联盟呼吁修改加州 AI 透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟,呼吁对加州 AI 透明度法案(SB 942)进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证,这与开源许可证永久不可撤销的性质冲突。

🔗 来源

17. OpenAI 助力 Appia Foundation 推动先进 AI 共享标准建设

OpenAI 通过 Appia Foundation 支持制定先进 AI 的共享标准,涵盖评估框架、安全实践与全球合作。

🔗 来源


论文研究

18. AI 招聘工具存在种族偏见和系统性排斥

一项覆盖 340 万人、400 万份申请、150 家雇主和 1700 个职位的大规模实地研究发现,AI 招聘筛选工具存在显著的种族歧视:26% 的黑人申请者和 15% 的亚裔申请者遭遇算法对其族群的系统性排斥。多数雇主依赖同一第三方供应商算法,形成"算法单一文化"。研究呼吁对算法招聘进行独立监管。

🔗 来源

19. 九位评委,两个有效投票:相关错误削弱 LLM 评审面板

苹果机器学习研究团队发现,LLM-as-a-judge 面板因模型间高度相关而严重受限。对 7 个模型家族的 9 个前沿大语言模型测试表明,9 位评委实际仅提供约 2 个独立投票的信息量,面板准确率比独立投票理想值低 8-22 个百分点,最佳单一模型的表现已匹敌或超越整个面板。

🔗 来源

20. 基于指标依赖的标注饱和:从标签分布中学习

在 ChaosNLI 数据集上微调 NLI 模型,发现所需标注人数因评估指标而异:熵相关(识别分歧项)需约 20-50 个标注者收敛,KL 散度(分布匹配)约 10 个标注者即饱和。结论:标注预算应依据目标评估指标制定。

🔗 来源


技巧与观点

21. huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4-6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM-5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。

🔗 来源

22. Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。该模型为自主多玩家 AI 场景设计。

🔗 来源

23. GPT-5 帮助免疫学家解开三年未解之谜

GPT-5 Pro 帮助免疫学家 Derya Unutmaz 解决了一个长达三年的免疫学谜团,揭示了 T 细胞行为的新见解。这一突破可能为癌症和自身免疫疾病研究提供支持。

🔗 来源


数据来自 aihot.virxact.com

Leave a Comment

Share your thoughts about this page. All fields marked with * are required.

We'll never share your email.

Comments

0