我爱免费 发表于 2025-6-18 09:53

200亿AI独角兽出手!MiniMax称其新AI推理模型优于DeepSeek

作者:微信文章

中国AI新秀MiniMax发布了其首款推理模型M1,该模型仅使用512块英伟达H800 GPU训练三周,租赁成本53.74万美元,仅需DeepSeek 25%的计算资源。MiniMax加入了国内一系列竞争者的行列,目标是在推理AI领域超越DeepSeek。



这家位于上海的公司在声明中宣称,其新的MiniMax-M1模型在处理复杂生产力任务方面表现出色,并优于所有来自中国的闭源竞争者。在MiniMax提供的几个基准测试中,M1的评分也超过了DeepSeek最新的R1-0528模型。

M1支持一百万个tokens的上下文长度,是DeepSeek R1的八倍。上下文长度帮助AI系统同时处理更多信息。据公司称,在某些情况下,MiniMax的模型所需资源仅为DeepSeek的约30%。根据彭博社报道,尚未独立验证MiniMax的这一说法。

该公司使用大规模强化学习来训练M1,使用了512台Nvidia公司的H800 GPU,租赁费用为534,700美元。

MiniMax称,M1的整个强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本53.74万美元(约合380万人民币)。这一成本控制"比最初预期少了一个数量级"。MiniMax创始人&CEO闫俊杰发文表示:“第一次感觉到大山不是不能翻越。”



MiniMax的推理模型 M1,采用混合专家(MoE)架构与线性注意力机制(Lightning Attention),正面突破传统Transformer在计算效率上的瓶颈。据官方介绍,这一创新架构理论上可将推理上下文长度扩展至数十万Token级别,同时大幅降低训练与推理所需的算力成本,为大规模应用场景打下基础。

M1模型总参数规模达到4560亿,激活参数为459亿,支持最多100万个Token的长上下文输入——是DeepSeek R1的8倍,已与Google Gemini 2.5 Pro并列成为业内领先水平。

在性能方面,M1在17项主流基准测试中表现稳定,尤其在软件工程能力评测集SWE-bench中取得超过55%的得分,虽略逊于海外头部模型,但已全面超越DeepSeek-R1、阿里与字节的同类产品。

尤其值得关注的是其长上下文理解能力:在三项权威基准测试中,M1全面领先所有开源模型,仅微弱落后于Gemini 2.5 Pro,稳居全球第二。



MiniMax由国内知名互联网企业支持,属于国内六家被称为“小龙”的顶级AI初创企业之一。在过去一年中,这些公司共筹集了数十亿美元的风险投资,尽管DeepSeek的崛起迫使该集团中的大多数公司削减或终止基础研究,更多地关注应用。

MiniMax表示将在接下来的几天内分享更多更新,M1仅是该公司为期5天发布周的首个产品,后续还将发布智能体应用。该公司的其他产品包括一个视频生成工具和一个AI伴侣应用程序。

-----------END-----------

📒推荐阅读
最强解析来了:脑机接口独角兽Neuralink超额认购,深剖其技术壁垒、竞争格局与投资逻辑,融资后估值可达90亿美元

Benchmark独家访谈:人形机器人最高估值Figure AI创始人Brett Adcock|特斯拉Optimus最大竞争对手

BenchmarkAGI独家访谈|FigureAI最大机构投资人及董事:人形机器人终将成为万亿产业;Brett或成下一个马斯克

📒更多价值资讯和观点请访问       www.benchmarkagi.com

页: [1]
查看完整版本: 200亿AI独角兽出手!MiniMax称其新AI推理模型优于DeepSeek