评测与主流模型现状

核心要点：

宣称长度 ≠ 有效长度：常差 2-4 倍

NIAH 测下限：易过拟合，过了不代表行

RULER 是事实标准：13 任务量化有效长度

$\infty$Bench 测真实任务：模型不易刷分

选型以评测为准：不看宣称长度

本文回答"长上下文模型做得怎么样、怎么测"。是本章节的收尾，呼应 02-第一性挑战的中段遗忘与位置外推问题——评测是这两个问题的"裁判"。

为什么需要专门评测

短上下文评测（MMLU、HellaSwag 等）测的是知识 / 推理能力，长度通常几百到数千 token。这些测不出长上下文能力。

长上下文评测的核心目标：

维度	含义
远距离回忆	模型能否记得 100K token 前提到过的事实
跨段聚合	模型能否综合长上下文多处信息回答问题
位置鲁棒性	信息在上下文不同位置（特别是中段）时模型能否一致使用
长生成连贯性	长输出（万 token 级）的逻辑一致性
真实任务能力	长文档摘要、代码库问答、长合同分析等实际场景

@tbl-longctx-eval-dimensions 长上下文评测的五个维度

NIAH — Needle in a Haystack

核心问题：如何用最简单的方式测出"远距离精确检索"能力？

任务设计

最早由 Greg Kamradt 设计 (2023)[1]：

[海量干扰文本] ... 一句关键事实（"Needle"）... [更多干扰文本]
问：刚才那个关键事实是什么？

把 needle 放在不同位置 × 不同上下文长度，画热图：横轴上下文长度，纵轴 needle 位置，颜色表示正确率。

优势	劣势
直观、易实现	任务太简单，特征明显
视觉化清晰	模型容易"刷分"（针对 NIAH 训练）
揭示中段遗忘	未覆盖跨段聚合等复杂任务

@tbl-longctx-eval-niah NIAH 评测的优劣

业界共识：NIAH 是长上下文能力的下限——过不了 NIAH 一定不行，过了 NIAH 不代表行。已被 RULER 等更严格评测部分取代。

中段衰减现象

NIAH 几乎所有模型都出现：首尾正确率高、中段正确率低[2]——印证 02-第一性挑战的中段遗忘问题。

RULER — 当前事实标准

核心问题：RULER 如何量化"有效上下文长度"？

RULER / Hsieh et al., 2024 (NVIDIA)[3][4] 设计 13 个任务、4 大类（含噪声鲁棒变体），覆盖比 NIAH 更广的长依赖类型：

任务大类	任务变体
检索 (Retrieval)	单 needle、多 needle、不同类型 needle、含干扰项的检索（噪声鲁棒）
多跳追踪 (Multi-hop Tracing)	"A → B → C"，回溯链式引用
聚合 (Aggregation)	统计 / 排序 / 频次
问答 (QA)	基于长文档的 QA

如所示，关键设计：每个任务可参数化生成不同上下文长度，从 4K 测到 128K+。

@tbl-longctx-eval-ruler-tasks RULER 的 13 个任务、4 大类

有效上下文长度

RULER 论文给出每个模型在每个长度下的平均得分。"有效上下文长度"定义为得分 $> 85\%$ 的最大长度，与"宣称上下文长度"比较：

模型	宣称	RULER 有效（得分 >85.6%）	备注
Gemini-1.5-Pro	1M	≥128K	RULER 官方榜维持高分至 128K
Qwen2.5-14B-Instruct-1M	1M	≥128K	RULER 官方榜维持有效长度
Qwen3-32B / Qwen3-235B-A22B	1M	≥128K	RULER 官方榜最新测试
GPT-4-1106-preview	128K	64K（128K 得分 81.2）	128K 得分低于阈值，有效仅 64K
Llama3.1-70B-Instruct	128K	64K	RULER 榜宣称 128K，有效 64K
早期 32K 模型（代表）	32K	~16K	缩水约 2×

@tbl-longctx-eval-effective 模型的"宣称"与"有效"上下文长度对比（RULER 有效阈值 = 超过 Llama-2-7B@4K 得分 85.6%）

具体成绩以 RULER 论文[3] 与 RULER 官方排行榜[4] 为准；DeepSeek-V3 / GPT-4o / Gemini 2.x 未在 RULER 官方榜出现，不引用其 RULER 数字。

业界共识：选型必看 RULER 排行榜，不看宣称长度。1M 宣称但 RULER 有效 64K 的模型，在长 RAG 任务上和真正 1M 模型差距巨大。

$\infty$Bench — 真实长任务

核心问题：合成任务之外，模型在真实长文档上能力如何？

$\infty$Bench (Zhang et al., 2024)[5] 由清华等团队提出，强调真实任务而非合成模式：

任务	例子	长度
长文档 QA	整本小说问答	100K+
长代码 QA	整个 GitHub 仓库问答	100K+
数学推理	长篇推理题	100K+
数字字典	长 key-value 字典查询	100K+

@tbl-longctx-eval-infbench $\infty$Bench 的任务类别

特点：任务都来自真实场景（书 / 代码 / 推理题），模型不易"刷分"，能反映长上下文实际能力。

其他评测

Benchmark	特点
LongBench / LongBench-V2[6]	中英双语，覆盖 QA / 摘要 / 代码 / 多文档；V2 加长到 2M
Marathon	多类型长推理横评，含配套排行榜，覆盖多种推理任务类型
BABILong[7]	把 bAbI 20 类逻辑推理题嵌入超长干扰文档（最长 10M token），专测跨段推理；论文发现模型仅有效利用上下文的 10–20%
LooGLE[8]	ACL 2024；使用 2022 年后真实文档（均长 24K token）+ 1100+ 人工标注 QA，测跨全文长依赖理解
∞Bench[5]	100K+ token、12 类任务（含代码 / 数学），扩展 LongBench 边界至真实超长场景
HELMET	NVIDIA + Princeton 综合长上下文 benchmark
ToolHop	长 agent 多工具调用评测

@tbl-longctx-eval-others 其他长上下文评测

主线区别：RULER 用合成数据量化"有效长度"；Marathon / BABILong / LooGLE / ∞Bench 用真实或半真实文档测实际任务能力，模型不易刷分。

评测组合实践：

快速筛：NIAH 看下限
能力刻画：RULER 看综合
场景对齐：$\infty$Bench / LongBench 看实际任务

主流模型 2026 现状

数据可信度提示：以下汇总为业界趋势示意，具体上下文长度以模型官方文档为准；"宣称"不等同 RULER / $\infty$Bench 有效。

商用闭源

模型	宣称上下文	评测有效（RULER 等）	备注
Gemini 2.0 Pro / 2.5 Pro	1M-2M	有效上下文较接近宣称	当前长上下文能力最强
Claude 3.5 Sonnet / 4 Sonnet	200K-1M	有效上下文接近宣称	长文档分析能力强
GPT-4 Turbo / GPT-4.1	128K-1M	GPT-4.1 报告 1M 有效	工业部署量最大
Gemini 系列研究版本	10M+（宣称）	部分论文展示	工业稳定部署 1M-2M

@tbl-longctx-eval-closed-source 商用闭源模型上下文长度（2026 示意）

开源主流

模型	宣称上下文	关键技术
LLaMA 3.1 / 3.3	128K	RoPE + 渐进扩展 + GQA
Qwen2.5 / 3	128K-1M（部分）	YaRN + 渐进扩展 + GQA
DeepSeek-V3 / V4	128K	MLA + RoPE + 长 SFT
Mistral / Mixtral	32K-128K	RoPE + SWA + GQA
Yi-1.5 / 200K	200K	YaRN 系
InternLM2 / 3	200K-1M	YaRN + 多阶段长训
Kimi K1.5 / Moonlight	200K-2M	长 SFT + MoE
Jamba	256K	Hybrid (Mamba+Transformer)

@tbl-longctx-eval-open-source 开源主流模型上下文长度（2026 示意）

当前实践共识

选型	推荐
闭源 API + 商业场景	Gemini 系（最长）/ Claude 系（精度高）/ GPT 系（生态）
开源 + 私有部署 + 通用	LLaMA 3.x / Qwen2.5 / DeepSeek V3+，128K 满足绝大多数场景
长上下文极端场景	Gemini API / Kimi 系 / Qwen2.5-Turbo 1M / Hybrid 模型
边缘 / 端侧	7B-级 + SWA / 量化 / 截断输入

@tbl-longctx-eval-selection 主流模型长上下文场景选型

评测 → 训练的反馈环

评测不仅是验收，是训练策略的指南：

评测发现弱项（如多跳追踪退化）
     ↓
合成对应任务的训练数据
     ↓
长 SFT 阶段补强
     ↓
再评测

@tbl-longctx-eval-feedback 评测与训练的反馈环（示意）

这是 06-训练侧中"宣称 ≠ 有效"问题的应对：以评测反推数据。

Takeaway

知识点	核心结论
为何需专门评测	短上下文评测测不出远距离回忆 / 跨段聚合能力
NIAH	长上下文能力下限，易过拟合，过了不代表行
RULER 有效长度	得分 > 85% 的最大长度，是事实标准
$\infty$Bench	真实任务（书 / 代码 / 推理），模型不易刷分
宣称 ≠ 有效	二者常差 2-4 倍，选型以 RULER 排行榜为准

@tbl-longctx-eval-takeaway 全文要点

参考资料

Kamradt, Needle in a Haystack — Pressure Testing LLMs, 2023. https://github.com/gkamradt/LLMTest_NeedleInAHaystack
Liu et al., Lost in the Middle: How Language Models Use Long Contexts, 2023. https://arxiv.org/abs/2307.03172
Hsieh et al., RULER: What's the Real Context Size of Your Long-Context Language Models?, 2024. https://arxiv.org/abs/2404.06654
NVIDIA, RULER GitHub（官方排行榜，有效长度阈值 = 超过 Llama-2-7B@4K 的 85.6%）. https://github.com/NVIDIA/RULER
Zhang et al., $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens, 2024. https://arxiv.org/abs/2402.13718
THUDM, LongBench / LongBench-V2, GitHub. https://github.com/THUDM/LongBench
Kuratov et al., BABILong: Testing the Limits of LLMs with Long Context Reasoning, 2024. arXiv:2406.10149. https://arxiv.org/abs/2406.10149
Li et al., LooGLE: Can Long-Context Language Models Understand Long Documents?, ACL 2024. https://github.com/bigai-nlco/LooGLE

为什么需要专门评测​

NIAH — Needle in a Haystack​

任务设计​

中段衰减现象​

RULER — 当前事实标准​

有效上下文长度​

$\infty$Bench — 真实长任务​

其他评测​

主流模型 2026 现状​

商用闭源​

开源主流​

当前实践共识​

评测 → 训练的反馈环​

Takeaway​

延伸阅读​

参考资料​