2026年6月三大开源模型排行:Ling-2.6与Ring-2.6谁更推荐?
- 时间:
- 浏览:150
- 来源:南宁市武鸣区陆酷巴网络科技工作室
闪电注意力架构解决长上下文瓶颈
百灵2.6系列于近日发布了技术报告, 该报告透露了其在万亿参数规模情形下的系统优化方案, 报告表明, 之前的模型是基于GTA分组查询注意力架构的, 在所涉及的上下文长度超过32K tokens以后, 注意力计算已然成为主要瓶颈, 为了去解决这一问题, 团队引进了Lightning Attention与MLA低秩隐空间压缩技术。
将序列维度计算复杂度从O(n²)降至O(n)的是Lightning Attention, 通过压缩KV Cache减少内存占用的是MLA。两项技术结合以后, 模型在长上下文训练这方面, 在长输出这方面, 以及在长链路Agent任务这方面, 表现更为优良。报告数据表明, 相较于Ling-2.0-1T, 百灵2.6在reasoning workloads上达成了大约4倍的token效率提升。
架构迁移四阶段实现低成本升级
并非从零开始去训练万亿参数模型的百灵2.6, 是在Ling - 2.0的基础之上开展架构迁移, 报告作出解释, Ling - 2.0 - 1T先前已经有大约20T tokens的训练投入, 直接再次培训成本过高, 所以团队选择于已有checkpoint上达成升级, 这一决定有效地削减了研发和碳排放。
它被划分成了那么四个阶段, 架构迁移, 其一阶段乃是闪电注意力转换, 把一部分原本的GQA层给替换成Lightning Attention, 其二阶段称作线性预热, 主要是为着新增的相关参数进行训练以及对齐, 其三阶段是MLA转换, 这里面涵盖一些操作, 去除QK归一化, 并且也要适配部分旋转位置编码, 最终阶段是MLA预热, 借助小规模持续训练把loss恢复到迁移之前的水平, 完成了迁移之后, 模型才能够进入大规模全参数训练。
预训练9.6T tokens覆盖31个评测基准
报告里提及, Ling - 2.6预训练总共处理了大约9.6T tokens, 它分为迁移预训练、继续预训练以及中期训练这三个阶段, 这样一种渐进式训练策略保障了模型在不同阶段都能够稳定地提升性能, 团队在base model评测当中运用了覆盖数学、代码、通用推理等领域的31个benchmark。
从评测得出的结果来看, Ling - 2.6 - 1T - base在世界知识方面, 在长上下文建模方面, 以及在推理能力方面取得了较为稳定的提升, 与此同时还保持了数学能力和代码能力。这些数据表明了架构迁移策略具有有效性, 特别是在没有牺牲原有能力的前提条件下实现了长上下文处理的突破。该模型在多个标准测试当中表现得要优于前代产品。
专家驱动后训练减少200到300个token
百灵2.6的后续训练, 是沿着即时响应以及高频调用去开展的, 运用的是专家驱动的训练路线。有报告表明, Ling - 2.6并未采用相对统一的后训练流程, 而是先借助强化学习对专家模型予以优化, 接着把能力蒸馏回统一模型。这样的分层训练策略, 致使模型平均输出长度减少了大约200到300个token。
于强化学习的阶段之时, Ling - 2.6于Evo - CoT的基础之上, 增添了动态长度惩罚以及语义冗余惩罚。何为动态长度惩罚呢, 它能够让模型于难题之上, 留存下所需的推理空间, 与此同时, 还会压缩简单任务里过长的输出。这样精细化的训练控制, 显著地提高了响应效率, 致使模型在维持准确性的前提条件之下, 变得更为简洁。
Ring-2.6面向长程Agent强化工具使用
Ring - 2.6的后训练目标面向复杂的事物, 指向长程运行的情况, 属于工具密集型的Agent任务范畴。它的构建依托于Ling - 2.6 - 1T Base, 在经历了cold - start SFT的过程之后, 进而步入由KPop算法所推动的推理以及Agent专家训练阶段。报告当中有所提及, KPop舍弃了固定比例约束转而采用对称二元KL散度, 达成了更为稳定的MoE模型Agentic RL训练活动。
在工具使用数据方面, Ring - 2.6着重对仓库级代码任务进行重点覆盖, 对移动端和网页搜索任务也进行重点覆盖, 对那种需要多步规划以及错误恢复的通用工具工作流同样进行重点覆盖, 针对SWE类长程任务, 最终训练数据集含有大概2500个实例, 这些实例来自1550个仓库, 所覆盖包含Python、Java、C等30多种编程语言, 这样的广度确保了模型在实际应用里的实用性!
基础设施优化实现80%性能提升
百灵2.6进行基础设施优化, 其围绕长上下文训练展开, 围绕大规模异步Agentic RL展开, 围绕推理serving展开。团队提出了AllGather-based CP, 这使得Lightning Attention在256K上下文长度时带来了约68%的端到端加速。这意味着当用户处理超长文档或者复杂任务时, 等待时间被大幅缩短啦。
RL基础设施ASystem针对长序列rollout调度做了优化, ARouter同样如此, 在长序列场景里带来超八成的端到端性能提升。就推理而言, 团队把训练阶段积累的融合算子适配到真实部署场景, 还让训练与推理阶段的数值行为保持一致。这些底层的这些优化致使百灵2.6在实际运行时愈发稳定高效。
对于2026年AI模型效率得以提升这件事, 你觉得它会给普通用户带来怎样的实际影响呢? 欢迎在评论区把你的看法分享出来, 给本文点赞并且转发, 从而让更多的人知晓百灵2.6的技术突破。
猜你喜欢