一、摘要
MiniMax-M2.7是MiniMax旗舰文本模型,XSCT Arena xsct-l综合得分84.5,全场第#11,位于第二梯队头部。其最显著的特征是「文字强但推理弱」——在润色、摘要等文字生成任务中超越排名更高的kimi-k2.5,但在复杂逻辑推理和数学竞赛场景中存在系统性崩溃。
核心数据快照
| 指标 | 数值 |
|---|---|
| 综合得分 | 84.5(xsct-l排行榜第#11) |
| 日常得分 | 85.6 |
| 专业得分 | 84.4 |
| 极限得分 | 83.4 |
| 最强维度 | L-Polish润色(Hard档90.2) |
| 最弱维度 | L-Math数学竞赛Hard仅15.0 |
| 覆盖维度数 | 24个,全维度覆盖 |
| 天花板档位 | Hard档(ceiling=3) |
| vs M2.1综合分提升 | 约+1.7分 |
二、评测方法
本报告所有数据均来自XSCT Arena(xsct.ai),采用LLM-as-a-Judge方法,使用三个Judge模型加权评分:
- Claude Sonnet 4.6(权重50%)
- Gemini 3 Flash(权重30%)
- Kimi(权重20%)
每个评分维度均设置三档难度:
- 基础(Basic):模拟日常使用场景
- 中等(Medium):模拟专业工作需求
- 困难(Hard):测试模型能力上限(极限场景)
三、核心场景深度分析
🔥 最强项:润色与摘要
L-Polish润色(Hard档90.2):在学术摘要科普化改写用例中,MiniMax-M2.7以93.2分拔得头筹,领先kimi-k2.5(91.6)约1.6分。Gemini Judge给出满分100.0。
L-Summary摘要(Hard档88.5):以92.6分大幅领先,kimi-k2.5仅85.2分(差距7.4分),qwen3.5-plus仅81.4分(差距11.2分)。
⚠️ 最弱项:数学竞赛
L-Math数学竞赛(Hard档仅15.0分):这是本次测评最重要的发现。模型在数学竞赛困难档的得分仅为15.0分,是全报告最低分。Judge评语指出:
“推理过程陷入无限循环,大量重复相同文本(『重新检查n=4的情况』重复数千次),完全未能完成题目要求。”
这一现象在L-Logic逻辑维度(Hard 68.0分)同样有所体现。
四、横向竞品对标
在文字创作公平用例集中,MiniMax-M2.7以均分91.7分位列第一,甚至超越:
- GPT-5.4(90.2,#5)
- Claude Opus 4.6(88.5,#2)
- kimi-k2.5(88.6,#3)
这一「排名倒挂」现象印证了M2.7是典型的「文字强但推理弱」型模型。
五、综合评估:优劣势矩阵
✅ 优势项目
| 场景 | Hard档得分 |
|---|---|
| 润色 | 90.2 |
| 摘要 | 88.5 |
| 翻译 | 84.0 |
| 理解力 | 90+ |
| 知识库QA | 89.2 |
| 安全性 | 91.5 |
❌ 劣势项目
| 场景 | 得分 |
|---|---|
| 数学竞赛 | 15.0 |
| 逻辑推理 | 68.0 |
| 指令遵循 | 77.7 |
| 人设写作 | 72.0 |
| 批判性思维 | 66.9 |
六、场景选型建议
✅ 强烈推荐使用
- 文案润色与风格改写:Hard档全场最佳,政策/科普/商务多风格切换精准
- 多受众摘要生成:Hard档大幅优于竞品
- 文章/文档理解与问答:全档稳定在90+以上
- 知识库QA/RAG应用:安全性高(91.5)
- 角色扮演/客服场景
⚠️ 慎用场景
- 数学/竞赛题解答:推理循环崩溃风险
- 复杂逻辑推理/多步骤论证:退化幅度-19
- 复杂指令跟随:复杂指令下漏项率高
- 多场景人设一致性写作:时间线管理存在缺陷
七、结论与改进建议
核心结论
- 文字创作场景的隐藏强者:润色、摘要、翻译三类维度均分91.7分,领先kimi-k2.5 3.1分
- 润色与摘要是差异化优势:Gemini Judge多次给出100分,达到当前主流最高水准
- 复杂推理存在系统性缺陷:无限循环现象不是个案,是结构性短板
- 文字创作内部仍有分化:改写型任务一流,原创人设写作需人工审核
改进建议优先级
| 优先级 | 改进项 |
|---|---|
| 【最高】 | 修复推理循环崩溃 |
| 【高】 | 提升指令遵循Hard档稳定性 |
| 【中】 | 加强多场景人设一致性管理 |
| 【中】 | 补足批判性思维基础能力 |
数据来源:XSCT Arena(xsct.ai)