跳到主要内容

评测与主流模型现状

核心要点

  • 宣称长度 ≠ 有效长度:常差 2-4 倍
  • NIAH 测下限:易过拟合,过了不代表行
  • RULER 是事实标准:13 任务量化有效长度
  • $\infty$Bench 测真实任务:模型不易刷分
  • 选型以评测为准:不看宣称长度

本文回答"长上下文模型做得怎么样、怎么测"。是本章节的收尾,呼应 02-第一性挑战 的中段遗忘与位置外推问题——评测是这两个问题的"裁判"。

为什么需要专门评测

短上下文评测(MMLU、HellaSwag 等)测的是知识 / 推理能力,长度通常几百到数千 token。这些测不出长上下文能力。

长上下文评测的核心目标:

维度含义
远距离回忆模型能否记得 100K token 前提到过的事实
跨段聚合模型能否综合长上下文多处信息回答问题
位置鲁棒性信息在上下文不同位置(特别是中段)时模型能否一致使用
长生成连贯性长输出(万 token 级)的逻辑一致性
真实任务能力长文档摘要、代码库问答、长合同分析等实际场景

@tbl-longctx-eval-dimensions 长上下文评测的五个维度

NIAH — Needle in a Haystack

核心问题:如何用最简单的方式测出"远距离精确检索"能力?

任务设计

最早由 Greg Kamradt 设计 (2023)[1]

[海量干扰文本] ... 一句关键事实("Needle")... [更多干扰文本]
问:刚才那个关键事实是什么?

把 needle 放在不同位置 × 不同上下文长度,画热图:横轴上下文长度,纵轴 needle 位置,颜色表示正确率。

优势劣势
直观、易实现任务太简单,特征明显
视觉化清晰模型容易"刷分"(针对 NIAH 训练)
揭示中段遗忘未覆盖跨段聚合等复杂任务

@tbl-longctx-eval-niah NIAH 评测的优劣

业界共识:NIAH 是长上下文能力的下限——过不了 NIAH 一定不行,过了 NIAH 不代表行。已被 RULER 等更严格评测部分取代。

中段衰减现象

NIAH 几乎所有模型都出现:首尾正确率高、中段正确率低[2]——印证 02-第一性挑战 的中段遗忘问题。

RULER — 当前事实标准

核心问题:RULER 如何量化"有效上下文长度"?

RULER / Hsieh et al., 2024 (NVIDIA)[3][4] 设计 13 个任务、4 大类(含噪声鲁棒变体),覆盖比 NIAH 更广的长依赖类型:

任务大类任务变体
检索 (Retrieval)单 needle、多 needle、不同类型 needle、含干扰项的检索(噪声鲁棒)
多跳追踪 (Multi-hop Tracing)"A → B → C",回溯链式引用
聚合 (Aggregation)统计 / 排序 / 频次
问答 (QA)基于长文档的 QA

所示,关键设计:每个任务可参数化生成不同上下文长度,从 4K 测到 128K+。

@tbl-longctx-eval-ruler-tasks RULER 的 13 个任务、4 大类

有效上下文长度

RULER 论文给出每个模型在每个长度下的平均得分。"有效上下文长度"定义为得分 $> 85\%$ 的最大长度,与"宣称上下文长度"比较:

模型宣称RULER 有效(得分 >85.6%)备注
Gemini-1.5-Pro1M≥128KRULER 官方榜维持高分至 128K
Qwen2.5-14B-Instruct-1M1M≥128KRULER 官方榜维持有效长度
Qwen3-32B / Qwen3-235B-A22B1M≥128KRULER 官方榜最新测试
GPT-4-1106-preview128K64K(128K 得分 81.2)128K 得分低于阈值,有效仅 64K
Llama3.1-70B-Instruct128K64KRULER 榜宣称 128K,有效 64K
早期 32K 模型(代表)32K~16K缩水约 2×

@tbl-longctx-eval-effective 模型的"宣称"与"有效"上下文长度对比(RULER 有效阈值 = 超过 Llama-2-7B@4K 得分 85.6%)

具体成绩以 RULER 论文[3] 与 RULER 官方排行榜[4] 为准;DeepSeek-V3 / GPT-4o / Gemini 2.x 未在 RULER 官方榜出现,不引用其 RULER 数字。

业界共识选型必看 RULER 排行榜,不看宣称长度。1M 宣称但 RULER 有效 64K 的模型,在长 RAG 任务上和真正 1M 模型差距巨大。

$\infty$Bench — 真实长任务

核心问题:合成任务之外,模型在真实长文档上能力如何?

$\infty$Bench (Zhang et al., 2024)[5] 由清华等团队提出,强调真实任务而非合成模式:

任务例子长度
长文档 QA整本小说问答100K+
长代码 QA整个 GitHub 仓库问答100K+
数学推理长篇推理题100K+
数字字典长 key-value 字典查询100K+

@tbl-longctx-eval-infbench $\infty$Bench 的任务类别

特点:任务都来自真实场景(书 / 代码 / 推理题),模型不易"刷分",能反映长上下文实际能力。

其他评测

Benchmark特点
LongBench / LongBench-V2[6]中英双语,覆盖 QA / 摘要 / 代码 / 多文档;V2 加长到 2M
Marathon多类型长推理横评,含配套排行榜,覆盖多种推理任务类型
BABILong[7]把 bAbI 20 类逻辑推理题嵌入超长干扰文档(最长 10M token),专测跨段推理;论文发现模型仅有效利用上下文的 10–20%
LooGLE[8]ACL 2024;使用 2022 年后真实文档(均长 24K token)+ 1100+ 人工标注 QA,测跨全文长依赖理解
∞Bench[5]100K+ token、12 类任务(含代码 / 数学),扩展 LongBench 边界至真实超长场景
HELMETNVIDIA + Princeton 综合长上下文 benchmark
ToolHop长 agent 多工具调用评测

@tbl-longctx-eval-others 其他长上下文评测

主线区别:RULER 用合成数据量化"有效长度";Marathon / BABILong / LooGLE / ∞Bench 用真实或半真实文档测实际任务能力,模型不易刷分。

评测组合实践

  • 快速筛:NIAH 看下限
  • 能力刻画:RULER 看综合
  • 场景对齐$\infty$Bench / LongBench 看实际任务

主流模型 2026 现状

数据可信度提示:以下汇总为业界趋势示意,具体上下文长度以模型官方文档为准;"宣称"不等同 RULER / $\infty$Bench 有效。

商用闭源

模型宣称上下文评测有效 (RULER 等)备注
Gemini 2.0 Pro / 2.5 Pro1M-2M有效上下文较接近宣称当前长上下文能力最强
Claude 3.5 Sonnet / 4 Sonnet200K-1M有效上下文接近宣称长文档分析能力强
GPT-4 Turbo / GPT-4.1128K-1MGPT-4.1 报告 1M 有效工业部署量最大
Gemini 系列研究版本10M+(宣称)部分论文展示工业稳定部署 1M-2M

@tbl-longctx-eval-closed-source 商用闭源模型上下文长度(2026 示意)

开源主流

模型宣称上下文关键技术
LLaMA 3.1 / 3.3128KRoPE + 渐进扩展 + GQA
Qwen2.5 / 3128K-1M(部分)YaRN + 渐进扩展 + GQA
DeepSeek-V3 / V4128KMLA + RoPE + 长 SFT
Mistral / Mixtral32K-128KRoPE + SWA + GQA
Yi-1.5 / 200K200KYaRN 系
InternLM2 / 3200K-1MYaRN + 多阶段长训
Kimi K1.5 / Moonlight200K-2M长 SFT + MoE
Jamba256KHybrid (Mamba+Transformer)

@tbl-longctx-eval-open-source 开源主流模型上下文长度(2026 示意)

当前实践共识

选型推荐
闭源 API + 商业场景Gemini 系(最长)/ Claude 系(精度高)/ GPT 系(生态)
开源 + 私有部署 + 通用LLaMA 3.x / Qwen2.5 / DeepSeek V3+,128K 满足绝大多数场景
长上下文极端场景Gemini API / Kimi 系 / Qwen2.5-Turbo 1M / Hybrid 模型
边缘 / 端侧7B-级 + SWA / 量化 / 截断输入

@tbl-longctx-eval-selection 主流模型长上下文场景选型

评测 → 训练的反馈环

评测不仅是验收,是训练策略的指南

评测发现弱项(如多跳追踪退化)

合成对应任务的训练数据

长 SFT 阶段补强

再评测

@tbl-longctx-eval-feedback 评测与训练的反馈环(示意)

这是 06-训练侧 中"宣称 ≠ 有效"问题的应对:以评测反推数据。

Takeaway

知识点核心结论
为何需专门评测短上下文评测测不出远距离回忆 / 跨段聚合能力
NIAH长上下文能力下限,易过拟合,过了不代表行
RULER 有效长度得分 > 85% 的最大长度,是事实标准
$\infty$Bench真实任务(书 / 代码 / 推理),模型不易刷分
宣称 ≠ 有效二者常差 2-4 倍,选型以 RULER 排行榜为准

@tbl-longctx-eval-takeaway 全文要点

延伸阅读

  • Huang et al., A Comprehensive Survey on Long Context Language Modeling, 2025. 长上下文语言建模综述,覆盖本文涉及的评测体系与训练方法。https://arxiv.org/abs/2503.17407

参考资料

  1. Kamradt, Needle in a Haystack — Pressure Testing LLMs, 2023. https://github.com/gkamradt/LLMTest_NeedleInAHaystack
  2. Liu et al., Lost in the Middle: How Language Models Use Long Contexts, 2023. https://arxiv.org/abs/2307.03172
  3. Hsieh et al., RULER: What's the Real Context Size of Your Long-Context Language Models?, 2024. https://arxiv.org/abs/2404.06654
  4. NVIDIA, RULER GitHub(官方排行榜,有效长度阈值 = 超过 Llama-2-7B@4K 的 85.6%). https://github.com/NVIDIA/RULER
  5. Zhang et al., $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens, 2024. https://arxiv.org/abs/2402.13718
  6. THUDM, LongBench / LongBench-V2, GitHub. https://github.com/THUDM/LongBench
  7. Kuratov et al., BABILong: Testing the Limits of LLMs with Long Context Reasoning, 2024. arXiv:2406.10149. https://arxiv.org/abs/2406.10149
  8. Li et al., LooGLE: Can Long-Context Language Models Understand Long Documents?, ACL 2024. https://github.com/bigai-nlco/LooGLE