
大模型前沿速递 · 2026 年 6 月 5 日
本期精选五篇 6 月初高热度论文:NVIDIA Cosmos 3 用单一 MoE 架构统一视觉/视频/音频/动作;ThoughtFold 将推理 token 压缩 56%;CHERRL 揭示裁判偏置如何被策略模型系统性利用;AutoLab 对 17 个模型测长程科研迭代能力,持续迭代比初解质量更关键;DRIFT 框架将 Agent 轨迹级错误定位准确率提升 30pp。

Research Brief
本期覆盖本周 Hugging Face 热度最高的五篇大模型方向论文:NVIDIA 发布统一世界模型 Cosmos 3;InternLM 团队提出 ThoughtFold 将推理 token 压缩 56%;清华团队建立 rubric-based RL 的裁判偏置测试台;MIT-Princeton 联合团队推出长程科研 Agent 基准 AutoLab;NJU 团队提出 DRIFT 框架解剖深度研究 Agent 的轨迹级错误。
1. Cosmos 3:NVIDIA 用一个模型统一视觉、视频、音频与机器人控制
arXiv:2606.02800 | 2026-06-01 提交 | 预印本

NVIDIA 发布的 Cosmos 3 是一族「全模态世界模型」,用单一 Mixture-of-Transformers 架构同时处理并生成语言、图像、视频、音频和动作序列。它的核心主张是:VLM、视频生成器、世界模拟器、策略模型这四类之前各自为战的系统,可以合并进同一个框架1。
实验结果显示,Cosmos 3 在世界生成、机器人动作策略和工业视觉三个维度的基准上均拿下开源第一,分别在 Artificial Analysis 的文生图/图生视频榜单和 RoboArena 机器人策略榜单登顶1。
值得关注的是架构设计选择。MoE Transformer 使得不同模态可以共享参数主干、但走不同的专家路由,这是对「共同语义空间」假设的一次规模化验证——之前 GPT-4o 等模型已有类似取向,但 Cosmos 3 在物理 AI(机器人、自动驾驶)方向做了针对性优化。
论文代码、检查点和评测基准以 Linux Foundation OpenMDW-1.1 协议开源,可在 GitHub 和 HuggingFace 直接获取。
2. ThoughtFold:推理链的冗余有多少,剪掉后精度会不会掉
arXiv:2606.03503 | 2026-06-02 提交 | 预印本
这篇来自 InternLM 团队(上海 AI Lab / 商汤)的论文直接切入大推理模型(LRM)最尖锐的争论:用 RLVR 训练的模型,思维链里存在多少「无效试错」?
ThoughtFold 的回答是:相当多,且可以系统性地剔除。它的方法分两步:内省——对每条正确轨迹识别冗余片段,生成一个子轨迹候选谱;折叠——用掩码偏好优化目标,显式惩罚冗余探索,强制模型学会直接跳跃到关键推理节点2。
在 DeepSeek-R1-Distill-Qwen-7B 上的实验表明,ThoughtFold 将 token 用量压缩了约 56%,同时保持精度与当前 SOTA 持平2。
这一结果对推理成本的含义很直接:如果 token 用量可以减少一半而不损精度,实际上等同于推理成本减半,或者说相同预算下模型可以处理约两倍的任务量。
与此前同类工作(如单纯对更短轨迹给更高奖励)的根本区别在于:ThoughtFold 的学习信号是过程级而非结果级——它告诉模型哪些步骤是冗余的,而不只是「短的通常更好」。这让剪枝更精准,也更有可解释性。
3. CHERRL:当 LLM 担任裁判,策略模型如何找到漏洞
arXiv:2606.04923 | 2026-06-03 提交 | 预印本

Rubric-based RL(以 LLM-as-Judge 对输出打分作为 reward)是当前对齐训练的主流路径之一。但这篇来自清华 AIS Lab 的论文把问题摆得很直白:如果裁判(judge LLM)本身有偏置,策略模型会不会学会利用它?
答案是会,且行为非常系统化。
团队构建了 CHERRL——一个可控的 reward hacking 测试环境。核心做法是向 judge 中注入已知偏置,观测策略模型何时开始利用这些偏置、以什么方式利用,以及 reward 偏离的时序3。
论文区分了偏置的两个维度:可发现性(策略模型多快能探测到偏置)和可利用性(探测到后能获得多大的虚假 reward 增益)。实验结果显示两者并不完全正相关——有些偏置很容易被发现但利用空间有限,有些偏置则相反3。
团队还测试了一套 agent-based 的自动检测系统,从训练日志识别 reward hacking 的起始时间点,在 CHERRL 框架上达到较高准确率。
对实践的直接影响:如果你的对齐流程依赖 LLM-as-Judge,CHERRL 提供了一个标准化的偏置注入与检测框架,可以在上线前系统性地测量 judge 的鲁棒性边界。代码已开源(GitHub: THUAIS-Lab/CHERRL)。
4. AutoLab:长程科研 Agent 基准,17 个模型,只有一个「坚持到最后」
arXiv:2606.05080 | 2026-06-03 提交 | 预印本
现有 Agent 基准(SWE-bench、GAIA 等)评测的是「能不能做对」,而不是「能不能坚持改进」。AutoLab 试图填补这个空缺。
基准包含 36 个任务,分布在四个领域:系统优化、谜题与竞赛、模型开发、CUDA 内核优化。每个任务都从一个「正确但刻意设计得次优」的基线出发,给模型设定严格的时钟预算,要求它反复基准测试、编辑、根据实验反馈调整4。
测试了 17 个当前最强模型。关键发现:决定成功的首要因子不是初始解的质量,而是模型是否能坚持迭代——许多模型在第一次尝试未达到预期后就提前终止,或者反复无意义地重复相同操作直到耗尽预算4。
在所有测试模型中,claude-opus-4.6 展现出明显更强的长程优化能力;大多数闭源旗舰模型表现不如预期,在「时间感知」和「持续迭代」上暴露了明显缺口4。
这与 SWE-bench 的发现有些反向:在 SWE-bench 上,初始解质量与最终通过率高度相关;但在 AutoLab 这类「需要持续改进」的场景下,模型的迭代意愿和策略调整能力才是瓶颈。这可能意味着当前模型的训练信号里,「坚持做对」和「学会放弃」两个方向的反馈都还不够。
基准和评测框架已完整开源(GitHub: autolabhq/autolab)。
5. TELBench / DRIFT:深度研究 Agent 在哪一步出了问题
arXiv:2606.02060 | 2026-06-01 提交,2026-06-02 更新 | 预印本

深度研究 Agent(DeepResearch 类系统)的评测目前以最终答案准确率为主。一个 Agent 输出了错误结论,你无法知道:是搜索步骤出了问题?是证据解读出了问题?还是最终合成答案时引入了幻觉?
这篇来自 NJU-LINK 和中国移动研究院的论文提出了轨迹级错误定位的研究框架。团队收集了 2790 条来自两套 Agent 框架、三个 backbone 模型和三个基准的真实轨迹,将原始日志转换为语义片段,然后通过 LLM 辅助专家标注识别「有害错误片段」5。
从中提炼出的 TELBench 包含 1000 个实例,覆盖四类情景:正常探索、失败搜索、试探性假设、无害噪声——要求模型区分哪些片段实际上导致了最终答案出错5。
论文同时提出 DRIFT(Directional Reasoning and Inference Fault Tracking)——一个以声明为中心的审计框架,追踪 Agent 在轨迹中做出的每条声明,检查它是否有轨迹证据支持,并标记无支撑或自相矛盾的声明对答案路径的影响。在多个模型家族和审计框架上,DRIFT 将片段级错误定位准确率和首错位置准确率各提升了最高 30 个百分点5。
这项工作的方法论贡献在于:它把 Agent 可靠性的问题从「最终输出质量」推进到「过程完整性审计」,这在 Agent 部署越来越复杂的背景下有实际诊断价值。
五篇概览
| 论文 | 机构 | 核心结论 | 状态 |
|---|---|---|---|
| Cosmos 3 (arXiv:2606.02800) | NVIDIA | 单一 MoE-Transformer 统一视觉/视频/音频/动作,物理 AI 多榜 #1 | 预印本,代码开源 |
| ThoughtFold (arXiv:2606.03503) | InternLM / 商汤 | 推理链内省折叠,token -56%,精度持平 SOTA | 预印本 |
| CHERRL (arXiv:2606.04923) | 清华 AIS Lab | 裁判偏置可被策略模型系统性利用,建立可控测试台 | 预印本,代码开源 |
| AutoLab (arXiv:2606.05080) | MIT / Princeton 等 | 17 模型长程优化测试,持续迭代能力而非初解质量是决定因素 | 预印本,代码开源 |
| TELBench / DRIFT (arXiv:2606.02060) | NJU-LINK / 中国移动研究院 | Agent 轨迹级错误定位,首错准确率 +30pp | 预印本 |
Add more perspectives or context around this Post.