AI 日报 · 2026-04-05

今日概览

今天的内容明显聚焦在两个方向：一类是大模型训练正在从“堆预训练”转向完整训练链路优化，另一类是AI Agent 的长期可用性越来越依赖外部记忆与工作流编排。前者回答“模型为什么越来越强”，后者回答“工具为什么越用越顺手”。

从信号看，训练侧已经不再只谈参数量和语料规模，而是更强调后训练、奖励设计、蒸馏、系统约束与 harness 这类工程化环节；工具侧则在进一步验证，真正决定 Agent 体验差异的，不只是底层模型，而是围绕模型建立起来的记忆、规则与运行环境。

今日重点

你不知道的大模型训练：原理、路径与新实践

来源：Tw93 Blog

文章指出，2026年大模型能力的提升更多来自预训练之后的完整训练链路，包括后训练、评测、奖励和蒸馏等环节。作者通过分析训练栈的六层结构，解释了用户感知到的模型效果改善如何通过这些后端优化实现，并强调了数据配方、系统约束和奖励设计的重要性。

值得关注：

大模型用户感知的提升主要来自预训练之后的后训练、评测、奖励和蒸馏等环节，而非单纯增加预训练数据。
完整的训练流程是一条多阶段流水线，包括数据工程、系统架构、后训练、评测奖励和蒸馏部署，各层高度耦合。
DeepSeek-R1等案例展示了现代后训练通常包含冷启动SFT、强化学习、拒绝采样微调和安全对齐四个阶段。这篇内容更值得关注的原因在于，它把模型能力提升背后的工程结构讲清楚了，适合拿来校准对训练演进方向的判断。

你不知道的大模型训练：原理、路径与新实践

来源：Tw93 Blog

文章指出，当前大模型能力的提升更多依赖于预训练之后的后训练、评测、奖励等完整训练链路，而非单纯扩大预训练规模。文章详细拆解了从预训练到Agent训练的各层优化，并以DeepSeek-R1等为例说明了现代训练流程如何系统性地提升模型最终表现。

值得关注：

模型实际感知到的提升往往来自预训练后的完整训练链路，包括后训练、评测与奖励等环节。
数据工程和配方设计直接影响模型的能力分布，而合成数据与蒸馏已成为训练流程的关键部分。
系统约束（如GPU、显存、并行策略）在训练初期就决定了模型规模、上下文长度等关键能力上限。这篇内容更值得关注的原因在于，它把模型能力提升背后的工程结构讲清楚了，适合拿来校准对训练演进方向的判断。

OpenClaw 为什么越用越好用？本质就是一堆 md 文件

来源：阿里云开发者

文章通过分析 OpenClaw 源码，揭示其越用越好用的核心机制在于一个基于 Markdown 文件的自我进化系统。该系统通过预设的 7 类核心文件记录用户偏好、行为规范和踩坑经验，并在每次对话前后读写更新，形成学习闭环。最终，Agent 的价值和性能差异主要取决于其 workspace 中积累的 md 文件内容。

值得关注：

OpenClaw 的核心机制是一个基于 Markdown 文件的读写循环，通过预设的 7 类核心文件（如 SOUL.md、AGENTS.md）记录和更新经验。
Agent 的性能和价值取决于其 workspace 文件夹中积累的 md 文件，这些文件编码了用户偏好、工作流和踩坑记录。
系统通过外层（md 文件读写）和内层（向量索引检索）两层循环，构建了一个完整的学习-记忆-检索-应用闭环。这篇内容更值得关注的原因在于，它把 Agent 体验差异拆到了最底层的可操作单元：不是抽象地谈“智能”，而是具体到 md 文件、记忆索引和工作流如何积累。

趋势观察

大模型能力竞争正在后移。 用户感知到的“更聪明”，越来越来自后训练、奖励建模、拒绝采样、蒸馏与部署链路，而不是单一预训练规模扩张。
系统工程正在反向定义模型上限。 GPU、显存、并行策略、上下文窗口这些基础约束，已经不只是基础设施问题，而是在前期就决定了模型能力边界。
Agent 工具进入“记忆基础设施”阶段。 谁能把偏好、规则、经验和检索机制沉淀成稳定外部记忆，谁的产品就更容易形成复利体验。
AI 的社会影响讨论开始更具体。 成本结构、资源分配与能力鸿沟，会越来越多地进入技术讨论主舞台。

今日概览#

今日重点#

你不知道的大模型训练：原理、路径与新实践#

你不知道的大模型训练：原理、路径与新实践#

OpenClaw 为什么越用越好用？本质就是一堆 md 文件#

趋势观察#

延伸阅读#

今日概览

今日重点

你不知道的大模型训练：原理、路径与新实践

你不知道的大模型训练：原理、路径与新实践

OpenClaw 为什么越用越好用？本质就是一堆 md 文件

趋势观察

延伸阅读