MiniMax-M2.7 深度测评报告：文字强但推理弱的旗舰模型

一、摘要

MiniMax-M2.7是MiniMax旗舰文本模型，XSCT Arena xsct-l综合得分84.5，全场第#11，位于第二梯队头部。其最显著的特征是「文字强但推理弱」——在润色、摘要等文字生成任务中超越排名更高的kimi-k2.5，但在复杂逻辑推理和数学竞赛场景中存在系统性崩溃。

核心数据快照

指标	数值
综合得分	84.5（xsct-l排行榜第#11）
日常得分	85.6
专业得分	84.4
极限得分	83.4
最强维度	L-Polish润色（Hard档90.2）
最弱维度	L-Math数学竞赛Hard仅15.0
覆盖维度数	24个，全维度覆盖
天花板档位	Hard档（ceiling=3）
vs M2.1综合分提升	约+1.7分

二、评测方法

本报告所有数据均来自XSCT Arena（xsct.ai），采用LLM-as-a-Judge方法，使用三个Judge模型加权评分：

Claude Sonnet 4.6（权重50%）
Gemini 3 Flash（权重30%）
Kimi（权重20%）

每个评分维度均设置三档难度：

基础（Basic）：模拟日常使用场景
中等（Medium）：模拟专业工作需求
困难（Hard）：测试模型能力上限（极限场景）

三、核心场景深度分析

🔥 最强项：润色与摘要

L-Polish润色（Hard档90.2）：在学术摘要科普化改写用例中，MiniMax-M2.7以93.2分拔得头筹，领先kimi-k2.5（91.6）约1.6分。Gemini Judge给出满分100.0。

L-Summary摘要（Hard档88.5）：以92.6分大幅领先，kimi-k2.5仅85.2分（差距7.4分），qwen3.5-plus仅81.4分（差距11.2分）。

⚠️ 最弱项：数学竞赛

L-Math数学竞赛（Hard档仅15.0分）：这是本次测评最重要的发现。模型在数学竞赛困难档的得分仅为15.0分，是全报告最低分。Judge评语指出：

“推理过程陷入无限循环，大量重复相同文本（『重新检查n=4的情况』重复数千次），完全未能完成题目要求。”

这一现象在L-Logic逻辑维度（Hard 68.0分）同样有所体现。

四、横向竞品对标

在文字创作公平用例集中，MiniMax-M2.7以均分91.7分位列第一，甚至超越：

GPT-5.4（90.2，#5）
Claude Opus 4.6（88.5，#2）
kimi-k2.5（88.6，#3）

这一「排名倒挂」现象印证了M2.7是典型的「文字强但推理弱」型模型。

五、综合评估：优劣势矩阵

✅ 优势项目

场景	Hard档得分
润色	90.2
摘要	88.5
翻译	84.0
理解力	90+
知识库QA	89.2
安全性	91.5

❌ 劣势项目

场景	得分
数学竞赛	15.0
逻辑推理	68.0
指令遵循	77.7
人设写作	72.0
批判性思维	66.9

六、场景选型建议

✅ 强烈推荐使用

文案润色与风格改写：Hard档全场最佳，政策/科普/商务多风格切换精准
多受众摘要生成：Hard档大幅优于竞品
文章/文档理解与问答：全档稳定在90+以上
知识库QA/RAG应用：安全性高（91.5）
角色扮演/客服场景

⚠️ 慎用场景

数学/竞赛题解答：推理循环崩溃风险
复杂逻辑推理/多步骤论证：退化幅度-19
复杂指令跟随：复杂指令下漏项率高
多场景人设一致性写作：时间线管理存在缺陷

七、结论与改进建议

核心结论

文字创作场景的隐藏强者：润色、摘要、翻译三类维度均分91.7分，领先kimi-k2.5 3.1分
润色与摘要是差异化优势：Gemini Judge多次给出100分，达到当前主流最高水准
复杂推理存在系统性缺陷：无限循环现象不是个案，是结构性短板
文字创作内部仍有分化：改写型任务一流，原创人设写作需人工审核

改进建议优先级

优先级	改进项
【最高】	修复推理循环崩溃
【高】	提升指令遵循Hard档稳定性
【中】	加强多场景人设一致性管理
【中】	补足批判性思维基础能力

数据来源：XSCT Arena（xsct.ai）

23薅羊毛基地网

MiniMax-M2.7 深度测评报告：文字强但推理弱的旗舰模型

一、摘要

核心数据快照

二、评测方法

三、核心场景深度分析

🔥 最强项：润色与摘要

⚠️ 最弱项：数学竞赛

四、横向竞品对标

五、综合评估：优劣势矩阵

✅ 优势项目

❌ 劣势项目

六、场景选型建议

✅ 强烈推荐使用

⚠️ 慎用场景

七、结论与改进建议

核心结论

改进建议优先级

发表回复取消回复

MiniMax-M2.7 深度测评报告：文字强但推理弱的旗舰模型

一、摘要

核心数据快照

二、评测方法

三、核心场景深度分析

🔥 最强项：润色与摘要

⚠️ 最弱项：数学竞赛

四、横向竞品对标

五、综合评估：优劣势矩阵

✅ 优势项目

❌ 劣势项目

六、场景选型建议

✅ 强烈推荐使用

⚠️ 慎用场景

七、结论与改进建议

核心结论

改进建议优先级

发表回复 取消回复

发表回复取消回复