- Published on
2026-第十五周
- Authors

- Name
- AgedCoffee
- @__middle__child
该周报主要为各个地方内容的汇总整理
技术
为 Mintlify AI 助手构建虚拟文件系统
本文介绍了传统 RAG(检索增强生成)在处理跨文档或精确语法查询时的局限性,以及团队如何通过构建虚拟文件系统 ChromaFs 来解决延迟、成本和权限控制等问题,最终实现高效、低成本的文档智能助手。
- 🧠 传统 RAG 的局限:当答案分散在多页面或精确语法未出现在检索结果中时,传统基于文本块匹配的 RAG 系统无法有效回答。
- ⏱️ 沙箱方案的成本与延迟问题:为每个会话创建独立沙箱(包括克隆仓库)导致延迟高达 46 秒,且每月 85 万次对话的预估年成本超过 7 万美元。
- 💡 虚拟文件系统的创新:团队构建了 ChromaFs,一个基于现有 Chroma 数据库的虚拟文件系统,通过拦截 UNIX 命令并将其转换为数据库查询,模拟真实文件系统操作。
- 🚀 性能与成本优化:会话创建时间从 46 秒降至 100 毫秒,边际计算成本为零,同时利用缓存和预取机制提升查询效率。
- 🔒 内置权限控制:通过文件树中的元数据(如 isPublic 和 groups)实现基于用户角色的访问控制,无需复杂的基础设施管理。
- 🔧 智能命令处理:对
grep等复杂命令进行优化,先通过 Chroma 粗筛匹配文件,再预取内容进行本地精细过滤,实现毫秒级响应。 - 🌐 实际应用与开源:ChromaFs 已支持每日超过 3 万次对话,并应用于 Mintlify 文档站点,代码已在 GitHub 开源。
工具
更新
设计
AI
你不知道的大模型训练:原理、路径与新实践
本文系统梳理了大模型训练的完整链路,指出 2026 年模型能力的核心差异已从预训练本身,转向后训练、评测、奖励、Agent 训练及蒸馏等后续环节。文章强调,用户感知到的模型效果提升往往是整个训练栈协同优化的结果,并详细拆解了从预训练到部署的各个环节及其相互影响。
- 🏗️ 训练链路分层:大模型训练是一条包含数据、算法、系统、反馈的高度耦合流水线,预训练后的后训练、评测、奖励等环节对最终用户体验影响日益关键。
- 🔧 预训练是地基:预训练不仅赋予模型语言建模和知识压缩能力,还通过 tokenizer 设计、上下文长度、多模态等早期决策,决定了模型后续能力的上限与部署形态。
- 📊 数据配方即能力设计:数据工程不仅是清洗和过滤,更是通过数据配比、去重、合成数据等手段主动塑造模型的能力分布,高质量数据配方已成为模型竞争力的核心。
- ⚙️ 系统约束决定训练边界:大规模训练本质是分布式系统问题,GPU 规模、并行策略、容错能力等系统约束直接影响模型规模、上下文长度及训练稳定性。
- 🛠️ 后训练是多阶段流水线:现代后训练(如 DeepSeek-R1)通常包含冷启动 SFT、强化学习(如 GRPO)、拒绝采样微调和安全对齐等多个阶段,各阶段环环相扣以提升模型指令遵循和推理能力。
- 🎯 奖励与评测设计至关重要:奖励模型(ORM/PRM)和评测机制直接引导模型优化方向,设计不当易导致奖励破解、对齐伪装等问题,尤其在 Agent 任务中需加入过程奖励和环境隔离。
- 🤖 Agent 训练聚焦环境与编排:Agent 训练的核心从数据多样性转向环境质量,训练目标扩展至规划、工具调用和长任务连贯性,外层控制程序(harness)的优化能显著提升模型表现。
- 🔄 蒸馏与专用化压缩能力:大模型通过 RL 产生的高质量推理轨迹可蒸馏至小模型,实现能力解耦与成本降低;专用化模型则针对特定场景优化,体现训练终点不仅是“更大”也可能是“更专”。
- 🚀 训练 - 部署闭环缩短:生产流量持续回流训练,实时 RL 等在线优化手段出现,模型发布成为产品决策,需权衡能力、成本、延迟等多重因素,完整训练链路和持续迭代的 harness 程序才是产品核心。