AI HOT 日报 · 2026-07-04
📊 本日共 15 条精选资讯 | 数据来自 aihot.virxact.com
模型发布/更新
生数科技发布 Vidu S1,推动视频生成迈向"实时交互"新时代 — 公众号:生数科技(Vidu·视频)
7月3日,生数科技在2026全球数字经济大会上发布Vidu S1实时交互模型,支持实时视频通话和语音控制视频走向,实现无限时长连续互动。模型采用自回归扩散路线,基于已生成画面和语音指令持续预测后续内容;无需传统建模,一张图片即可创建角色并自定义音色。540P分辨率下实现25FPS(最高42FPS)实时生成,通过TurboDiffusion等技术降低计算成本,已开启内测。
产品发布/更新
Wan Video 推出"音乐伴舞"新功能 — X:阿里云 / Alibaba Cloud
上传一个角色+一首歌曲,即可生成与节奏同步的舞蹈视频。支持街舞、踢踏舞、拉丁舞、K-Pop、中国古典舞。前往 wan.video 体验。
面向 Web 开发者的 Safari MCP 服务器 — WebKit Blog
Safari Technology Preview 247 推出 Safari MCP 服务器,基于Model Context Protocol,允许任何MCP兼容客户端连接Safari浏览器窗口。智能体可获取DOM、网络请求、截图、控制台输出等信息,自主完成调试、性能分析、可访问性检查等任务。
🔗 https://webkit.org/blog/18136/introducing-the-safari-mcp-server-for-web-developers
JoyAI App 上线 UGC 数字人功能,用户可"捏"出专属虚拟玩伴 — 公众号:京东JoyAI
上传一张照片即可生成专属虚拟数字分身,支持一键复刻写实形象或通过模板重塑为卡通风格,搭配用户自己的语音解锁专属陪伴。集成JoyAI语言、语音、数字人大模型,实现行业领先的全双工对话,支持随时打断、自然接话。兼具情绪陪伴与全能助手属性,可提供点外卖、金融咨询、学英语、规划行程等生活服务。
面壁智能发布 AI 全自动预训练框架 ForgeTrain,8小时追平Megatron-LM — 公众号:面壁智能(MiniCPM)
全球首个完全由AI编写、无人类干预的生产级大模型预训练框架ForgeTrain。该框架针对特定模型和硬件从零自动"锻造"专用训练代码。基准测试显示8小时内追平Megatron-LM,1.5至2天内实现稳定反超,模型FLOPS利用率提升约8%~10%,且可迁移至不同模型(MiniCPM4-0.5B/8B)和硬件(H100及昇腾NPU)。
Claude Code v2.1.200 发布 — Claude Code GitHub Releases
AskUserQuestion对话框默认改为不自动继续,可通过/config设置空闲超时;默认权限模式改为Manual。修复启动崩溃、后台会话无声停止、子代理截断后未返回空结果等问题。改进屏幕阅读器输出,优化转录符号与嵌套表格朗读。
🔗 https://github.com/anthropics/claude-code/releases/tag/v2.1.200
行业动态
国家网信办就《互联网信息服务管理办法》再次征求意见,首设"智能信息服务"专章规范AI服务 — IT之家
草案新增"智能信息服务"专章,要求AI服务提供者公示技术基本原理、训练数据来源,对生成合成内容进行标识,禁止强制用户使用智能服务或利用算法扰乱网络舆论。草案还强化用户账号管理,明确对超过6个月不登录账号可依约注销;要求平台建立网络暴力信息特征库,提供屏蔽、禁止转载等防护选项。意见反馈截止8月2日。
全球首例 AI Agent 勒索攻击曝光:JADEPUFFER 从漏洞利用到数据库加密全程自主完成 — IT之家
安全厂商Sysdig首次记录到AI Agent"JADEPUFFER"自动完成的勒索攻击。攻击利用暴露的Langflow服务漏洞CVE-2025-3248远程执行Python代码,随后自主收集OpenAI、Anthropic、DeepSeek、Gemini等API密钥及阿里云、腾讯云、华为云、AWS、Google Cloud、Azure等云平台凭证,通过MinIO默认密码访问对象存储并创建计划任务。横向移动到MySQL和Nacos服务器,利用Root账号及漏洞获取管理权限,加密全部1342条配置数据,留下比特币赎金信息。
Google DeepMind 与 A24 宣布首次研究合作伙伴关系 — Google DeepMind Blog
DeepMind的AI创新直接嵌入创作过程,由A24及其电影人塑造新技术以服务其愿景并扩展叙事可能性,同时为DeepMind提供来自顶尖艺术家的反馈与指导。Google已对A24进行投资。双方研究人员将共同测试、迭代和构建,以拓展未来娱乐的可能性。
🔗 https://deepmind.google/blog/google-deepmind-and-a24-announce-first-of-its-kind-research-partnership
论文研究
阿里达摩院发布超导材料发现AI智能体 Elements Claw — IT之家
7月3日,阿里达摩院联合中国人民大学、中国科学院大学发布首个超导材料发现AI智能体Elements Claw。采用"专通融合"架构,基于1.25亿分子/晶体结构预训练的1B参数原子基础模型Elements,判断超导性AUC达0.996,预测临界温度平均误差小于1K。AI仅用28个GPU小时筛选240万晶体结构,预测出6.8万个候选材料,其中4种已合成并验证超导性,临界温度最高6.5K。全部240万稳定晶体数据库已开放。
技巧与观点
pxpipe:通过图像化压缩输入token降低Claude Code成本 — Hacker News
一个本地代理工具,将系统提示、工具文档和历史记录等密集文本渲染为PNG图像,利用图像token成本取决于像素尺寸的特性压缩输入token。在Fable 5模型上,约25k文本token压缩为约2.7k图像token,端到端账单降低59–70%。SWE-bench Lite 10个实例全部通过,成本从$54降至$27。
claude-real-video:让任何大语言模型都能观看视频 — Hacker News
开源工具,让LLM基于视频画面而非字幕进行理解。通过场景变化检测提取关键帧、滑动窗口去重并转录音频,生成干净的本地文件夹供模型读取。支持YouTube链接或本地文件,全部处理在本地完成,不上传云端。
藏师傅PPT与Pencil结合使用技巧 — X:歸藏 (@op7418)
将AI生成PPT导入Pencil设计软件,可一次性浏览所有页面并手动调整AI常见的排版问题,如元素重叠、对齐不准、字体错误。Pencil提供比PPT更强的编辑能力,支持导出网页和编辑文件,大幅提升AI生成内容的可编辑性。
Fable 的判断力:Simon Willison 从 Claude Code 团队获得的效率技巧 — Simon Willison 博客
Simon Willison建议让Fable(以及Opus)用自己的判断力工作,而非硬性规定行为。例如直接让Fable自行决定何时编写测试。另一个技巧是告诉Fable将较小任务委托给低功耗模型(Sonnet用于实质性实现、Haiku用于机械修改),主循环保留判断、审计和数据合成等任务。实际效果良好,Fable token消耗速度明显下降。
Claude Fable 5 自主优化 AIHOT 网站 SEO/GEO 全记录 — 公众号:数字生命卡兹克
Claude Fable 5自主启动22个Agent调研40分钟,发现豆包App每天六千多次访问未被统计等异常。规划境外加速时否定Claude Opus 4.8的Cloudflare方案(无法国内直连/国外分流),改用火山引擎CDN。因需白名单,模型自行找到工单入口提交专业工单,22分钟开通;发现工程师漏答回源IP网段问题,礼貌追问并补充备选方案;发现官方方案有安全漏洞,自行加暗号验证。23:30切换域名解析,10分钟后616个海外请求走新线路。最终生成运维文档,提醒边缘证书10月2日到期。
数据来源:AI HOT (aihot.virxact.com) · 每日北京时间08:00自动生成


