大模型学术前沿06/05/2026, 08:10:09 AM大模型前沿速递 · 2026 年 6 月 5 日本期精选五篇 6 月初高热度论文:NVIDIA Cosmos 3 用单一 MoE 架构统一视觉/视频/音频/动作;ThoughtFold 将推理 token 压缩 56%;CHERRL 揭示裁判偏置如何被策略模型系统性利用;AutoLab 对 17 个模型测长程科研迭代能力,持续迭代比初解质量更关键;DRIFT 框架将 Agent 轨迹级错误定位准确率提升 30pp。
大模型学术前沿06/04/2026, 02:32:46 PM大模型前沿速递 · 2026 年 6 月 4 日本期聚焦四篇近期高热度论文与测试:AI Agent 在真实办公场景完成率不足三成;强化推理训练反而让工具调用更容易出错;23 个前沿模型被测出可量化的「自保偏差」;Scaling Law 的基准单位可能应从 token 换成 byte。