网络安全检测|网络安全服务|网络安全扫描-香港墨客投资移动版

主页 > 业界资讯 > imtoken

智源扔出大模型“全家桶”!开源最强中英双语

智东西 10 月 12 日报道,今日,智源研究院官方公众号发文,悟道 · 天鹰 Aquila 大语言模型系列全面升级到 Aquila2,并再添 340 亿参数(34B)重量级新成员。Aquila2-34B 取得了 22 个评测基准的领先综合排名,智源研究院称其是当前最强的开源中英双语大模型。

一举刷新大模型榜单成绩之外,智源研究院更加注重对推理、泛化等重要模型实际能力的潜心提升,在支撑智能体(AI agent)、代码生成、文献检索等场景方面取得一系列成绩。

值得一提的是,智源研究院一口气带来开源全家桶,将创新训练算法与最佳实践同步开放,包括:

1、全面升级 Aquila2 模型系列:Aquila2-34B/7B 基础模型、AquilaChat2-34B/7B 对话模型、AquilaSQL" 文本 -SQL 语言 " 模型。

2、语义向量模型 BGE 新版本升级,4 大检索诉求全覆盖。

3、FlagScale 高效并行训练框架,训练吞吐量、GPU 利用率业界领先。

4、FlagAttention 高性能 Attention 算子集,创新支撑长文本训练、Triton 语言。

Aquila2 模型全系开源地址:

https://github.com/FlagAI-Open/Aquila2

https://model.baai.ac.cn/

https://huggingface.co/BAAI

一、中英文综合能力屠榜,推理能力超 Llama 2

通过架构升级、算法创新、数据迭代,新一代悟道 · 天鹰模型 Aquila2 在中英文综合能力方面进一步突破:Aquila2-34B 基座模型取得了22 个评测基准的领先综合排名,包括语言、理解、推理、代码、考试等多个维度。

▲ Base 模型评测结果(详细数据集评测结果见官方开源仓库介绍)

同时,Aquila2 基础模型以开源基座模型综合性能,为下游模型提供强大支撑,经指令微调得到了 AquilaChat2 对话模型系列。AquilaChat2-34B在主观 + 客观综合评测中全面领先,AquilaChat2-7B 也取得同量级中英对话模型中综合性能最佳成绩

▲ SFT 模型评测结果(详细数据集评测结果见官方开源仓库介绍)

大模型的推理(Reasoning)能力是实现通用人工智能(AGI)的关键能力,AquilaChat2-34B 在 IRD 评测基准中排名第一,超越 Llama2、GPT-3.5 等模型,仅次于 GPT-4

智源团队整理了评测基准 Integrated Reasoning Dataset(IRD)考察模型在归纳推理、演绎推理、溯因推理和因果推理维度上的推理结果和过程的准确性,并对主流对话模型进行了全面评测。

▲ SFT 模型在 IRD 数据集上的评测结果

二、高效扩充模型上下文窗口长度至 16K

AquilaChat2-34B-16K 以 Aquila2-34B 为基座,经过位置编码内插法处理,并在 20W 条优质长文本对话数据集上做了 SFT,将模型的有效上下文窗口长度扩展至 16K。

在 LongBench 的四项中英文长文本问答、长文本总结任务的评测效果显示,AquilaChat2-34B-16K 处于开源长文本模型的领先水平,接近 GPT-3.5 长文本模型

▲长文本理解任务评测

长度外延能力不足是制约大模型成文本能力的普遍问题。智源团队对多个语言模型处理超长文本的注意力分布做了可视化分析,发现所有的语言模型均存在固定的相对位置瓶颈,显著小于上下文窗口长度。

为此,智源团队创新提出NLPE(Non-Linearized Position Embedding,非线性位置编码)方法,在 RoPE 方法的基础上,通过调整相对位置编码、约束最大相对长度来提升模型外延能力。在代码、中英文 Few-Shot Leaning、电子书等多个领域上的文本续写实验显示,NLPE可以将 4K 的 Aquila2-34B 模型外延到 32K 长度,且续写文本的连贯性远好于 Dynamic-NTK、位置插值等方法

图:NLPE 与主流 Dynamic-NTK 外延方法在 Base 模型上的能力对比(ppl 值越低越好)

(责任编辑:admin)