MiniMax-M2.7 深度测评报告:文字强但推理弱的旗舰模型


一、摘要

MiniMax-M2.7是MiniMax旗舰文本模型,XSCT Arena xsct-l综合得分84.5,全场第#11,位于第二梯队头部。其最显著的特征是「文字强但推理弱」——在润色、摘要等文字生成任务中超越排名更高的kimi-k2.5,但在复杂逻辑推理和数学竞赛场景中存在系统性崩溃。

核心数据快照

指标 数值
综合得分 84.5(xsct-l排行榜第#11)
日常得分 85.6
专业得分 84.4
极限得分 83.4
最强维度 L-Polish润色(Hard档90.2)
最弱维度 L-Math数学竞赛Hard仅15.0
覆盖维度数 24个,全维度覆盖
天花板档位 Hard档(ceiling=3)
vs M2.1综合分提升 约+1.7分

二、评测方法

本报告所有数据均来自XSCT Arena(xsct.ai),采用LLM-as-a-Judge方法,使用三个Judge模型加权评分:

  • Claude Sonnet 4.6(权重50%)
  • Gemini 3 Flash(权重30%)
  • Kimi(权重20%)

每个评分维度均设置三档难度:

  • 基础(Basic):模拟日常使用场景
  • 中等(Medium):模拟专业工作需求
  • 困难(Hard):测试模型能力上限(极限场景)

三、核心场景深度分析

🔥 最强项:润色与摘要

L-Polish润色(Hard档90.2):在学术摘要科普化改写用例中,MiniMax-M2.7以93.2分拔得头筹,领先kimi-k2.5(91.6)约1.6分。Gemini Judge给出满分100.0。

L-Summary摘要(Hard档88.5):以92.6分大幅领先,kimi-k2.5仅85.2分(差距7.4分),qwen3.5-plus仅81.4分(差距11.2分)。

⚠️ 最弱项:数学竞赛

L-Math数学竞赛(Hard档仅15.0分):这是本次测评最重要的发现。模型在数学竞赛困难档的得分仅为15.0分,是全报告最低分。Judge评语指出:

“推理过程陷入无限循环,大量重复相同文本(『重新检查n=4的情况』重复数千次),完全未能完成题目要求。”

这一现象在L-Logic逻辑维度(Hard 68.0分)同样有所体现。

四、横向竞品对标

文字创作公平用例集中,MiniMax-M2.7以均分91.7分位列第一,甚至超越:

  • GPT-5.4(90.2,#5)
  • Claude Opus 4.6(88.5,#2)
  • kimi-k2.5(88.6,#3)

这一「排名倒挂」现象印证了M2.7是典型的「文字强但推理弱」型模型。

五、综合评估:优劣势矩阵

✅ 优势项目

场景 Hard档得分
润色 90.2
摘要 88.5
翻译 84.0
理解力 90+
知识库QA 89.2
安全性 91.5

❌ 劣势项目

场景 得分
数学竞赛 15.0
逻辑推理 68.0
指令遵循 77.7
人设写作 72.0
批判性思维 66.9

六、场景选型建议

✅ 强烈推荐使用

  • 文案润色与风格改写:Hard档全场最佳,政策/科普/商务多风格切换精准
  • 多受众摘要生成:Hard档大幅优于竞品
  • 文章/文档理解与问答:全档稳定在90+以上
  • 知识库QA/RAG应用:安全性高(91.5)
  • 角色扮演/客服场景

⚠️ 慎用场景

  • 数学/竞赛题解答:推理循环崩溃风险
  • 复杂逻辑推理/多步骤论证:退化幅度-19
  • 复杂指令跟随:复杂指令下漏项率高
  • 多场景人设一致性写作:时间线管理存在缺陷

七、结论与改进建议

核心结论

  1. 文字创作场景的隐藏强者:润色、摘要、翻译三类维度均分91.7分,领先kimi-k2.5 3.1分
  2. 润色与摘要是差异化优势:Gemini Judge多次给出100分,达到当前主流最高水准
  3. 复杂推理存在系统性缺陷:无限循环现象不是个案,是结构性短板
  4. 文字创作内部仍有分化:改写型任务一流,原创人设写作需人工审核

改进建议优先级

优先级 改进项
【最高】 修复推理循环崩溃
【高】 提升指令遵循Hard档稳定性
【中】 加强多场景人设一致性管理
【中】 补足批判性思维基础能力

数据来源:XSCT Arena(xsct.ai)


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注