评测与主流模型现状
核心要点:
- 宣称长度 ≠ 有效长度:常差 2-4 倍
- NIAH 测下限:易过拟合,过了不代表行
- RULER 是事实标准:13 任务量化有效长度
- $\infty$Bench 测真实任务:模型不易刷分
- 选型以评测为准:不看宣称长度
本文回答"长上下文模型做得怎么样、怎么测"。是本章节的收尾,呼应 02-第一性挑战 的中段遗忘与位置外推问题——评测是这两个问题的"裁判"。
为什么需要专门评测
短上下文评测(MMLU、HellaSwag 等)测的是知识 / 推理能力,长度通常几百到数千 token。这些测不出长上下文能力。
长上下文评测的核心目标:
| 维度 | 含义 |
|---|---|
| 远距离回忆 | 模型能否记得 100K token 前提到过的事实 |
| 跨段聚合 | 模型能否综合长上下文多处信息回答问题 |
| 位置鲁棒性 | 信息在上下文不同位置(特别是中段)时模型能否一致使用 |
| 长生成连贯性 | 长输出(万 token 级)的逻辑一致性 |
| 真实任务能力 | 长文档摘要、代码库问答、长合同分析等实际场景 |
@tbl-longctx-eval-dimensions 长上下文评测的五个维度
NIAH — Needle in a Haystack
核心问题:如何用最简单的方式测出"远距离精确检索"能力?
任务设计
最早由 Greg Kamradt 设计 (2023)[1]:
[海量干扰文本] ... 一句关键事实("Needle")... [更多干扰文本]
问:刚才那个关键事实是什么?
把 needle 放在不同位置 × 不同上下文长度,画热图:横轴上下文长度,纵轴 needle 位置,颜色表示正确率。
| 优势 | 劣势 |
|---|---|
| 直观、易实现 | 任务太简单,特征明显 |
| 视觉化清晰 | 模型容易"刷分"(针对 NIAH 训练) |
| 揭示中段遗忘 | 未覆盖跨段聚合等复杂任务 |
@tbl-longctx-eval-niah NIAH 评测的优劣
业界共识:NIAH 是长上下文能力的下限——过不了 NIAH 一定不行,过了 NIAH 不代表行。已被 RULER 等更严格评测部分取代。
中段衰减现象
NIAH 几乎所有模型都出现:首尾正确率高、中段正确率低[2]——印证 02-第一性挑战 的中段遗忘问题。
RULER — 当前事实标准
核心问题:RULER 如何量化"有效上下文长度"?
RULER / Hsieh et al., 2024 (NVIDIA)[3][4] 设计 13 个任务、4 大类(含噪声鲁棒变体),覆盖比 NIAH 更广的长依赖类型:
| 任务大类 | 任务变体 |
|---|---|
| 检索 (Retrieval) | 单 needle、多 needle、不同类型 needle、含干扰项的检索(噪声鲁棒) |
| 多跳追踪 (Multi-hop Tracing) | "A → B → C",回溯链式引用 |
| 聚合 (Aggregation) | 统计 / 排序 / 频次 |
| 问答 (QA) | 基于长文档的 QA |
如 所示,关键设计:每个任务可参数化生成不同上下文长度,从 4K 测到 128K+。
@tbl-longctx-eval-ruler-tasks RULER 的 13 个任务、4 大类
有效上下文长度
RULER 论文给出每个模型在每个长度下的平均得分。"有效上下文长度"定义为得分 $> 85\%$ 的最大长度,与"宣称上下文长度"比较:
| 模型 | 宣称 | RULER 有效(得分 >85.6%) | 备注 |
|---|---|---|---|
| Gemini-1.5-Pro | 1M | ≥128K | RULER 官方榜维持高分至 128K |
| Qwen2.5-14B-Instruct-1M | 1M | ≥128K | RULER 官方榜维持有效长度 |
| Qwen3-32B / Qwen3-235B-A22B | 1M | ≥128K | RULER 官方榜最新测试 |
| GPT-4-1106-preview | 128K | 64K(128K 得分 81.2) | 128K 得分低于阈值,有效仅 64K |
| Llama3.1-70B-Instruct | 128K | 64K | RULER 榜宣称 128K,有效 64K |
| 早期 32K 模型(代表) | 32K | ~16K | 缩水约 2× |
@tbl-longctx-eval-effective 模型的"宣称"与"有效"上下文长度对比(RULER 有效阈值 = 超过 Llama-2-7B@4K 得分 85.6%)
具体成绩以 RULER 论文[3] 与 RULER 官方排行榜[4] 为准;DeepSeek-V3 / GPT-4o / Gemini 2.x 未在 RULER 官方榜出现,不引用其 RULER 数字。
业界共识:选型必看 RULER 排行榜,不看宣称长度。1M 宣称但 RULER 有效 64K 的模型,在长 RAG 任务上和真正 1M 模型差距巨大。
$\infty$Bench — 真实长任务
核心问题:合成任务之外,模型在真实长文档上能力如何?
$\infty$Bench (Zhang et al., 2024)[5] 由清华等团队提出,强调真实任务而非合成模式:
| 任务 | 例子 | 长度 |
|---|---|---|
| 长文档 QA | 整本小说问答 | 100K+ |
| 长代码 QA | 整个 GitHub 仓库问答 | 100K+ |
| 数学推理 | 长篇推理题 | 100K+ |
| 数字字典 | 长 key-value 字典查询 | 100K+ |
@tbl-longctx-eval-infbench $\infty$Bench 的任务类别
特点:任务都来自真实场景(书 / 代码 / 推理题),模型不易"刷分",能反映长上下文实际能力。
其他评测
| Benchmark | 特点 |
|---|---|
| LongBench / LongBench-V2[6] | 中英双语,覆盖 QA / 摘要 / 代码 / 多文档;V2 加长到 2M |
| Marathon | 多类型长推理横评,含配套排行榜,覆盖多种推理任务类型 |
| BABILong[7] | 把 bAbI 20 类逻辑推理题嵌入超长干扰文档(最长 10M token),专测跨段推理;论文发现模型仅有效利用上下文的 10–20% |
| LooGLE[8] | ACL 2024;使用 2022 年后真实文档(均长 24K token)+ 1100+ 人工标注 QA,测跨全文长依赖理解 |
| ∞Bench[5] | 100K+ token、12 类任务(含代码 / 数学),扩展 LongBench 边界至真实超长场景 |
| HELMET | NVIDIA + Princeton 综合长上下文 benchmark |
| ToolHop | 长 agent 多工具调用评测 |
@tbl-longctx-eval-others 其他长上下文评测
主线区别:RULER 用合成数据量化"有效长度";Marathon / BABILong / LooGLE / ∞Bench 用真实或半真实文档测实际任务能力,模型不易刷分。
评测组合实践:
- 快速筛:NIAH 看下限
- 能力刻画:RULER 看综合
- 场景对齐:$\infty$Bench / LongBench 看实际任务
主流模型 2026 现状
数据可信度提示:以下汇总为业界趋势示意,具体上下文长度以模型官方文档为准;"宣称"不等同 RULER / $\infty$Bench 有效。
商用闭源
| 模型 | 宣称上下文 | 评测有效 (RULER 等) | 备注 |
|---|---|---|---|
| Gemini 2.0 Pro / 2.5 Pro | 1M-2M | 有效上下文较接近宣称 | 当前长上下文能力最强 |
| Claude 3.5 Sonnet / 4 Sonnet | 200K-1M | 有效上下文接近宣称 | 长文档分析能力强 |
| GPT-4 Turbo / GPT-4.1 | 128K-1M | GPT-4.1 报告 1M 有效 | 工业部署量最大 |
| Gemini 系列研究版本 | 10M+(宣称) | 部分论文展示 | 工业稳定部署 1M-2M |
@tbl-longctx-eval-closed-source 商用闭源模型上下文长度(2026 示意)
开源主流
| 模型 | 宣称上下文 | 关键技术 |
|---|---|---|
| LLaMA 3.1 / 3.3 | 128K | RoPE + 渐进扩展 + GQA |
| Qwen2.5 / 3 | 128K-1M(部分) | YaRN + 渐进扩展 + GQA |
| DeepSeek-V3 / V4 | 128K | MLA + RoPE + 长 SFT |
| Mistral / Mixtral | 32K-128K | RoPE + SWA + GQA |
| Yi-1.5 / 200K | 200K | YaRN 系 |
| InternLM2 / 3 | 200K-1M | YaRN + 多阶段长训 |
| Kimi K1.5 / Moonlight | 200K-2M | 长 SFT + MoE |
| Jamba | 256K | Hybrid (Mamba+Transformer) |
@tbl-longctx-eval-open-source 开源主流模型上下文长度(2026 示意)
当前实践共识
| 选型 | 推荐 |
|---|---|
| 闭源 API + 商业场景 | Gemini 系(最长)/ Claude 系(精度高)/ GPT 系(生态) |
| 开源 + 私有部署 + 通用 | LLaMA 3.x / Qwen2.5 / DeepSeek V3+,128K 满足绝大多数场景 |
| 长上下文极端场景 | Gemini API / Kimi 系 / Qwen2.5-Turbo 1M / Hybrid 模型 |
| 边缘 / 端侧 | 7B-级 + SWA / 量化 / 截断输入 |
@tbl-longctx-eval-selection 主流模型长上下文场景选型
评测 → 训练的反馈环
评测不仅是验收,是训练策略的指南:
评测发现弱项(如多跳追踪退化)
↓
合成对应任务的训练数据
↓
长 SFT 阶段补强
↓
再评测
@tbl-longctx-eval-feedback 评测与训练的反馈环(示意)
这是 06-训练侧 中"宣称 ≠ 有效"问题的应对:以评测反推数据。
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 为何需专门评测 | 短上下文评测测不出远距离回忆 / 跨段聚合能力 |
| NIAH | 长上下文能力下限,易过拟合,过了不代表行 |
| RULER 有效长度 | 得分 > 85% 的最大长度,是事实标准 |
| $\infty$Bench | 真实任务(书 / 代码 / 推理),模型不易刷分 |
| 宣称 ≠ 有效 | 二者常差 2-4 倍,选型以 RULER 排行榜为准 |
@tbl-longctx-eval-takeaway 全文要点
延伸阅读
- Huang et al., A Comprehensive Survey on Long Context Language Modeling, 2025. 长上下文语言建模综述,覆盖本文涉及的评测体系与训练方法。https://arxiv.org/abs/2503.17407
参考资料
- Kamradt, Needle in a Haystack — Pressure Testing LLMs, 2023. https://github.com/gkamradt/LLMTest_NeedleInAHaystack
- Liu et al., Lost in the Middle: How Language Models Use Long Contexts, 2023. https://arxiv.org/abs/2307.03172
- Hsieh et al., RULER: What's the Real Context Size of Your Long-Context Language Models?, 2024. https://arxiv.org/abs/2404.06654
- NVIDIA, RULER GitHub(官方排行榜,有效长度阈值 = 超过 Llama-2-7B@4K 的 85.6%). https://github.com/NVIDIA/RULER
- Zhang et al., $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens, 2024. https://arxiv.org/abs/2402.13718
- THUDM, LongBench / LongBench-V2, GitHub. https://github.com/THUDM/LongBench
- Kuratov et al., BABILong: Testing the Limits of LLMs with Long Context Reasoning, 2024. arXiv:2406.10149. https://arxiv.org/abs/2406.10149
- Li et al., LooGLE: Can Long-Context Language Models Understand Long Documents?, ACL 2024. https://github.com/bigai-nlco/LooGLE