Mercury Coder 是 Inception Labs 推出的一款创新型大语言模型,采用扩散技术(Diffusion Technology)而非传统自回归方式,以每秒超 1000 token 的速度生成高质量代码和文本。它擅长代码生成、超长上下文处理,成本低廉且效率高,在基准测试中媲美 GPT-4o Mini 和 Claude 3.5 Haiku。目前可通过在线 Playground 免费试用,适合开发者快速原型设计,未来有望扩展至更多场景,代表了 AI 技术的新方向。
Mercury Coder 是一个人工智能工具,设计目标是帮助开发者、企业用户和研究人员更高效地生成代码、处理复杂任务或进行长篇对话。它不像传统的语言模型(如 GPT 或 Claude)那样按顺序逐个生成单词(即“自回归”方式),而是采用了扩散模型(Diffusion Model)的全新方法。这种方法最初在图像生成领域(如 Stable Diffusion)大获成功,现在被创新性地应用到文本和代码生成上。
简单来说,Mercury Coder 的核心特点是速度快、质量高、成本低。它可以在几秒钟内生成大量代码或文本,甚至能以每秒超过 1000 个 token(词元)的速度运行,远超大多数现有模型。
它的工作原理是什么?
要理解 Mercury Coder 的工作原理,先得聊聊传统模型和扩散模型的区别。
传统自回归模型
想象你在写文章,一个字一个字地写,写下一个字之前必须先确定前面的字是什么。这种方式叫“自回归”(Autoregressive)。比如 ChatGPT 就是这样工作的:它从左到右预测每个单词,速度受限于“一步步来”的过程。如果任务很长(比如生成 1000 个单词),它得花更多时间,因为每一步都要等上一步完成。
扩散模型(Mercury Coder 的方法)
现在换个场景:假设你面前有一张模糊的图片,上面隐约能看出是个猫。你一点点擦去模糊的部分,最后得到一张清晰的猫图。这就是扩散模型的基本思路——从“噪声”(一片混乱)开始,通过逐步“去噪”,最终生成清晰的结果。
Mercury Coder 把这个思路用在文字上。它不是一个词一个词地写,而是先“画”出一个粗糙的草稿(比如一堆乱七八糟的词),然后通过几次调整(去噪步骤),快速把整个文本或代码“擦”得清晰可用。这种“并行处理”的方式让它能在短时间内生成大量内容,而不是像传统模型那样慢慢“串行”生成。
举个例子:你让它写一个 500 行的程序,传统模型可能是“从第 1 行写到第 500 行”,而 Mercury Coder 更像是“先勾勒出整体框架,再一次性填满细节”,速度自然快得多。
Mercury Coder 有什么特别之处?
根据官方信息和公开测试结果,Mercury Coder 有以下几个亮点:
超快速度
在普通 NVIDIA H100 GPU 上,Mercury Coder Mini 能达到每秒 1109 个 token,Mercury Coder Small 也有 737 个 token。相比之下,GPT-4o Mini 只有 59 个 token/秒,Claude 3.5 Haiku 也才 200 个 token/秒。这意味着它比主流模型快 5-10 倍,甚至比一些前沿模型快 20 倍。
为什么这么快?因为扩散模型不像自回归模型那样受限于顺序生成,而是可以“多线程”工作。
高质量输出
在代码生成基准测试(如 HumanEval、MBPP 等)中,Mercury Coder 的表现与 GPT-4o Mini、Claude 3.5 Haiku 等模型相当,甚至在某些任务上超过它们。比如在 Copilot Arena 的开发者偏好测试中,Mercury Coder Mini 名列前茅。
它还能自我修正错误(因为去噪过程可以反复优化),减少“幻觉”(AI 生成错误内容)问题。
支持超长上下文
低成本
灵活性
Mercury Coder 和其他模型比怎么样?
为了让你更直观地理解,我简单对比一下 Mercury Coder 和几个知名模型:
模型 | 生成方式 | 速度(token/秒) | 擅长领域 | 成本 |
---|---|---|---|---|
Mercury Coder | 扩散模型 | 737-1109 | 代码生成、长文本 | 低 |
GPT-4o Mini | 自回归 | 59 | 通用对话、代码 | 中 |
Claude 3.5 Haiku | 自回归 | 200 | 文本、代码 | 中 |
DeepSeek Coder V2 | 自回归 | 未公开(较快) | 代码生成 | 中 |
速度:Mercury Coder 完胜,主要是扩散模型的并行优势。
质量:它在代码生成上与顶尖模型接近,但在某些基准测试中输给了 DeepSeek Coder V2 Lite(一个专门优化的代码模型)。
适用性:目前 Mercury Coder 更偏向代码生成,通用性可能不如 GPT 或 Claude,但潜力很大。
实际用起来怎么样?
Mercury Coder 目前可以通过 Inception Labs 的在线 Playground(https://chat.inceptionlabs.ai/)免费试用。试用版界面简单:输入需求(比如“写一个 JavaScript 弹球模拟器”),几秒钟后就能看到结果,还会显示生成的代码或程序预览。
举个例子:
输入:“Write a simulator for 5 balls bouncing on a billiard table. Make collision physics realistic, without gravity. Use Javascript.”
输出:几秒内生成一个完整的 JavaScript 程序,包括物理碰撞检测和动画效果,右侧还有实时运行的模拟器预览。
用户反馈显示,它的速度确实惊人,尤其适合快速原型设计或需要大量代码的场景。不过也有用户在 X 上提到,回答内容有时还不够成熟,可能需要更多训练数据来提升准确性。
Mercury Coder 的意义和未来
Mercury Coder 不只是一个新工具,它代表了一种技术方向的转变:
扩散模型的崛起:过去扩散模型主要用于图像和视频,现在证明它在文本领域也行得通。这可能引发新一轮 AI 技术竞赛。
效率革命:速度和成本的优势让它适合边缘设备(如手机、笔记本)或企业大规模部署。
新功能潜力:因为能“全局优化”,它未来可能支持更复杂的推理、错误修复,甚至用户自定义输出格式。
Inception Labs 表示,Mercury Coder 是“Mercury 系列”的第一款产品,接下来还会有针对聊天等场景的版本(目前在封闭测试中)。这意味着它的发展才刚开始。
总结
Mercury Coder 是一个用扩散技术驱动的 AI 模型,以超快速度、高质量输出和低成本为卖点,尤其适合代码生成和长上下文任务。它的工作方式像“从模糊到清晰”的魔法,颠覆了传统模型的“一步步写”模式。虽然目前还不够完美(比如通用性稍弱),但它展示了扩散模型在语言领域的巨大潜力。
如果你是开发者,想快速生成代码试试想法,Mercury Coder 值得一试。你可以去它的 Playground 体验一下,感受它“快到飞起”的魅力!有什么想深入了解的,比如技术细节或使用案例,随时告诉我,我再细聊。
Entdecken Sie weitere Seiten in derselben Kategorie
Chatsonic a conversational AI chatbot is like ChatGPT but built with superpowers and now GPT-4 powered. Dive in and interact with our AI chat online for free
Talk with Claude, an AI assistant from Anthropic
Use Meta AI assistant to get things done, create AI-generated images for free, and get answers to any of your questions. Meta AI is built on Meta's latest Llama large language model and uses Emu, our..
Bard is now Gemini. Get help with writing, planning, learning, and more from Google AI.
Microsoft Copilot is your companion to inform, entertain, and inspire. Get advice, feedback, and straightforward answers. Try Copilot now.
Frontier AI in your hands
Teile deine Gedanken. Felder mit * sind Pflichtfelder.