今日概览

今天的内容高度聚焦在 AI Agent 的评测与安全 这条主线上——三篇方法论文章分别从模型能力（MiniMax M3）、Agent 测评体系（腾讯）、Skill 安全基准（朱雀实验室）和工程化纪律（Harness）四个角度展开话题。与前两天偏应用和工具的内容不同，今天的文章更关注"如何衡量和控制 AI 质量"。

今日重点

1. 我们开源了 MiniMax M3

MiniMax 正式开源了原生多模态模型 M3，总参数量 428B、激活 23B，采用 MSA（MiniMax Sparse Attention）稀疏注意力架构以降低长上下文计算成本。该模型从零开始进行多模态混合训练，在 Artificial Analysis 综合智能指数排行榜上位列开源模型第一。

值得关注：

428B 总参/23B 激活的 MoE 架构，在推理效率和模型能力之间取得了不错的平衡。
MSA 稀疏注意力架构针对长上下文场景优化，降低了计算成本。
原生多模态训练（而非后期拼接）意味着视觉和语言能力的融合更深。

这篇内容更值得关注的原因在于，M3 是国产开源模型在多模态方向的重要一步，MSA 架构对长上下文的优化思路值得关注后续落地效果。

2. AI Agent & Skill 测评方案及落地实践

腾讯技术工程提出了一套综合性的 AI Agent 测评框架，结合确定性评分、Rubric（规则）评分与人工评分三类方式，覆盖功能正确性、过程质量、效率成本、鲁棒性安全和体验对齐五大维度，并已在 TPerf 性能分析 Agent 项目完成落地验证。

值得关注：

Agent 测评面临非确定性、黑盒化和错误级联放大三大核心难题，这套框架给出了系统的应对方案。
三类评分器的组合设计——确定性检查基本正确性，Rubric 评估过程质量，人工兜底复杂场景。
已在真实项目中验证，不是纯理论框架。

这篇内容更值得关注的原因在于，Agent 的可评测性是工程化落地的关键前提——没有可靠的测评手段，优化就变成了凭感觉调整。

3. 首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

腾讯朱雀实验室联合香港中文大学（深圳）发布了 Agent 技能安全评测基准 SkillTrustBench，从 62,652 个真实 Skill 中提炼出 5,520 个评测用例，覆盖九类安全威胁，包含不安全编码行为等。首期评测发现 Claude Opus 4.6 与 GLM-5.1 在安全扫描中表现最佳，不同扫描方案之间的检测结果差异显著。

值得关注：

Skill 安全是一个新兴但重要的方向——恶意 Skill 和缺陷 Skill 都可能成为攻击的入口。
5520 个评测用例覆盖九类威胁，覆盖面相当广。
不同扫描方案检测结果差异显著，说明行业标准尚未成熟。

这篇内容更值得关注的原因在于，它直接关系到所有使用 Agent Skill 的团队——如果 Skill 本身不安全，整个 Agent 系统的可靠性就会打折扣。

4. AI 不缺智商缺纪律：Harness 工程化实践

文章提出 AI Coding 的瓶颈已从模型能力转移到流程工程。Harness 框架通过分层约束、状态外置和门禁阻断提供纪律，用确定性评测平台驱动迭代。核心思想是把上下文当预算管理，通过常驻层、原子规则层和按需上下文层实现分层加载，通过 dispatcher 状态机+文件交接实现可中断、可续跑、可审计的控制平面。

值得关注：

“AI 不缺智商缺纪律"这个判断点出了当前 AI 工程化的核心矛盾。
分层上下文加载（常驻层→原子规则层→按需层）控制了 Token 成本的同时保证了质量。
dispatcher 状态机实现的可中断可续跑机制，解决了长时间 Agent 任务的可靠性问题。

这篇内容更值得关注的原因在于，它跟前两天的 Token 成本控制、Agent Skill 编写形成了一个完整的方法论链条——从成本控制到知识结构化管理再到流程纪律。

趋势观察

Agent 的可评测性正在成为行业焦点——今天三篇文章都直接或间接涉及评估，说明行业共识正在形成。
Skill 安全从角落话题走向台前——5520 个评测用例的出现说明 Skill 生态的安全威胁已经到了需要系统化应对的阶段。
流程工程超过模型能力成为瓶颈——从 Token 控制到 Harness 框架，大家都在意识到"怎么用 AI"比"用什么模型"更重要。
国产开源模型在多模态方向加速——M3 的开源为这个方向提供了新的基座选择。

AI 日报 · 2026-06-17

今日概览

今日重点

1. 我们开源了 MiniMax M3

2. AI Agent & Skill 测评方案及落地实践

3. 首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

4. AI 不缺智商缺纪律：Harness 工程化实践

趋势观察

延伸阅读

今日概览#

今日重点#

1. 我们开源了 MiniMax M3#

2. AI Agent & Skill 测评方案及落地实践#

3. 首个 Agent 技能安全评测基准 SkillTrustBench 正式发布#

4. AI 不缺智商缺纪律：Harness 工程化实践#

趋势观察#

延伸阅读#

今日概览

今日重点

1. 我们开源了 MiniMax M3

2. AI Agent & Skill 测评方案及落地实践

3. 首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

4. AI 不缺智商缺纪律：Harness 工程化实践

趋势观察

延伸阅读