今日概览
今天的内容高度聚焦在 AI Agent 的评测与安全 这条主线上——三篇方法论文章分别从模型能力(MiniMax M3)、Agent 测评体系(腾讯)、Skill 安全基准(朱雀实验室)和工程化纪律(Harness)四个角度展开话题。与前两天偏应用和工具的内容不同,今天的文章更关注"如何衡量和控制 AI 质量"。
今日重点
1. 我们开源了 MiniMax M3
MiniMax 正式开源了原生多模态模型 M3,总参数量 428B、激活 23B,采用 MSA(MiniMax Sparse Attention)稀疏注意力架构以降低长上下文计算成本。该模型从零开始进行多模态混合训练,在 Artificial Analysis 综合智能指数排行榜上位列开源模型第一。
值得关注:
- 428B 总参/23B 激活的 MoE 架构,在推理效率和模型能力之间取得了不错的平衡。
- MSA 稀疏注意力架构针对长上下文场景优化,降低了计算成本。
- 原生多模态训练(而非后期拼接)意味着视觉和语言能力的融合更深。
这篇内容更值得关注的原因在于,M3 是国产开源模型在多模态方向的重要一步,MSA 架构对长上下文的优化思路值得关注后续落地效果。
2. AI Agent & Skill 测评方案及落地实践
腾讯技术工程提出了一套综合性的 AI Agent 测评框架,结合确定性评分、Rubric(规则)评分与人工评分三类方式,覆盖功能正确性、过程质量、效率成本、鲁棒性安全和体验对齐五大维度,并已在 TPerf 性能分析 Agent 项目完成落地验证。
值得关注:
- Agent 测评面临非确定性、黑盒化和错误级联放大三大核心难题,这套框架给出了系统的应对方案。
- 三类评分器的组合设计——确定性检查基本正确性,Rubric 评估过程质量,人工兜底复杂场景。
- 已在真实项目中验证,不是纯理论框架。
这篇内容更值得关注的原因在于,Agent 的可评测性是工程化落地的关键前提——没有可靠的测评手段,优化就变成了凭感觉调整。
3. 首个 Agent 技能安全评测基准 SkillTrustBench 正式发布
腾讯朱雀实验室联合香港中文大学(深圳)发布了 Agent 技能安全评测基准 SkillTrustBench,从 62,652 个真实 Skill 中提炼出 5,520 个评测用例,覆盖九类安全威胁,包含不安全编码行为等。首期评测发现 Claude Opus 4.6 与 GLM-5.1 在安全扫描中表现最佳,不同扫描方案之间的检测结果差异显著。
值得关注:
- Skill 安全是一个新兴但重要的方向——恶意 Skill 和缺陷 Skill 都可能成为攻击的入口。
- 5520 个评测用例覆盖九类威胁,覆盖面相当广。
- 不同扫描方案检测结果差异显著,说明行业标准尚未成熟。
这篇内容更值得关注的原因在于,它直接关系到所有使用 Agent Skill 的团队——如果 Skill 本身不安全,整个 Agent 系统的可靠性就会打折扣。
4. AI 不缺智商缺纪律:Harness 工程化实践
文章提出 AI Coding 的瓶颈已从模型能力转移到流程工程。Harness 框架通过分层约束、状态外置和门禁阻断提供纪律,用确定性评测平台驱动迭代。核心思想是把上下文当预算管理,通过常驻层、原子规则层和按需上下文层实现分层加载,通过 dispatcher 状态机+文件交接实现可中断、可续跑、可审计的控制平面。
值得关注:
- “AI 不缺智商缺纪律"这个判断点出了当前 AI 工程化的核心矛盾。
- 分层上下文加载(常驻层→原子规则层→按需层)控制了 Token 成本的同时保证了质量。
- dispatcher 状态机实现的可中断可续跑机制,解决了长时间 Agent 任务的可靠性问题。
这篇内容更值得关注的原因在于,它跟前两天的 Token 成本控制、Agent Skill 编写形成了一个完整的方法论链条——从成本控制到知识结构化管理再到流程纪律。
趋势观察
- Agent 的可评测性正在成为行业焦点——今天三篇文章都直接或间接涉及评估,说明行业共识正在形成。
- Skill 安全从角落话题走向台前——5520 个评测用例的出现说明 Skill 生态的安全威胁已经到了需要系统化应对的阶段。
- 流程工程超过模型能力成为瓶颈——从 Token 控制到 Harness 框架,大家都在意识到"怎么用 AI"比"用什么模型"更重要。
- 国产开源模型在多模态方向加速——M3 的开源为这个方向提供了新的基座选择。
延伸阅读
- 2026年的毕业生们,正在花钱向AI证明自己是人类|数字生命卡兹克