今日概览

今天的内容明显聚焦在两个方向:一类是大模型训练正在从“堆预训练”转向完整训练链路优化,另一类是AI Agent 的长期可用性越来越依赖外部记忆与工作流编排。前者回答“模型为什么越来越强”,后者回答“工具为什么越用越顺手”。

从信号看,训练侧已经不再只谈参数量和语料规模,而是更强调后训练、奖励设计、蒸馏、系统约束与 harness 这类工程化环节;工具侧则在进一步验证,真正决定 Agent 体验差异的,不只是底层模型,而是围绕模型建立起来的记忆、规则与运行环境。

今日重点

你不知道的大模型训练:原理、路径与新实践

来源:Tw93 Blog

文章指出,2026年大模型能力的提升更多来自预训练之后的完整训练链路,包括后训练、评测、奖励和蒸馏等环节。作者通过分析训练栈的六层结构,解释了用户感知到的模型效果改善如何通过这些后端优化实现,并强调了数据配方、系统约束和奖励设计的重要性。

值得关注:

  • 大模型用户感知的提升主要来自预训练之后的后训练、评测、奖励和蒸馏等环节,而非单纯增加预训练数据。
  • 完整的训练流程是一条多阶段流水线,包括数据工程、系统架构、后训练、评测奖励和蒸馏部署,各层高度耦合。
  • DeepSeek-R1等案例展示了现代后训练通常包含冷启动SFT、强化学习、拒绝采样微调和安全对齐四个阶段。 这篇内容更值得关注的原因在于,它把模型能力提升背后的工程结构讲清楚了,适合拿来校准对训练演进方向的判断。

你不知道的大模型训练:原理、路径与新实践

来源:Tw93 Blog

文章指出,当前大模型能力的提升更多依赖于预训练之后的后训练、评测、奖励等完整训练链路,而非单纯扩大预训练规模。文章详细拆解了从预训练到Agent训练的各层优化,并以DeepSeek-R1等为例说明了现代训练流程如何系统性地提升模型最终表现。

值得关注:

  • 模型实际感知到的提升往往来自预训练后的完整训练链路,包括后训练、评测与奖励等环节。
  • 数据工程和配方设计直接影响模型的能力分布,而合成数据与蒸馏已成为训练流程的关键部分。
  • 系统约束(如GPU、显存、并行策略)在训练初期就决定了模型规模、上下文长度等关键能力上限。 这篇内容更值得关注的原因在于,它把模型能力提升背后的工程结构讲清楚了,适合拿来校准对训练演进方向的判断。

OpenClaw 为什么越用越好用?本质就是一堆 md 文件

来源:阿里云开发者

文章通过分析 OpenClaw 源码,揭示其越用越好用的核心机制在于一个基于 Markdown 文件的自我进化系统。该系统通过预设的 7 类核心文件记录用户偏好、行为规范和踩坑经验,并在每次对话前后读写更新,形成学习闭环。最终,Agent 的价值和性能差异主要取决于其 workspace 中积累的 md 文件内容。

值得关注:

  • OpenClaw 的核心机制是一个基于 Markdown 文件的读写循环,通过预设的 7 类核心文件(如 SOUL.md、AGENTS.md)记录和更新经验。
  • Agent 的性能和价值取决于其 workspace 文件夹中积累的 md 文件,这些文件编码了用户偏好、工作流和踩坑记录。
  • 系统通过外层(md 文件读写)和内层(向量索引检索)两层循环,构建了一个完整的学习-记忆-检索-应用闭环。 这篇内容更值得关注的原因在于,它把 Agent 体验差异拆到了最底层的可操作单元:不是抽象地谈“智能”,而是具体到 md 文件、记忆索引和工作流如何积累。

趋势观察

  1. 大模型能力竞争正在后移。 用户感知到的“更聪明”,越来越来自后训练、奖励建模、拒绝采样、蒸馏与部署链路,而不是单一预训练规模扩张。
  2. 系统工程正在反向定义模型上限。 GPU、显存、并行策略、上下文窗口这些基础约束,已经不只是基础设施问题,而是在前期就决定了模型能力边界。
  3. Agent 工具进入“记忆基础设施”阶段。 谁能把偏好、规则、经验和检索机制沉淀成稳定外部记忆,谁的产品就更容易形成复利体验。
  4. AI 的社会影响讨论开始更具体。 成本结构、资源分配与能力鸿沟,会越来越多地进入技术讨论主舞台。

延伸阅读