智源扔出大模型“全家桶”!开源最强中英双语(2)
时间:2023-10-26 20:33 来源:网络整理 作者:墨客科技 点击:次
此外,在长度为 5K~15K 的 HotpotQA、2WikiMultihopQA 等数据集上的指令跟随能力测试显示,经过 NLPE 外延的 AquilaChat2-7B(2K)准确率为 17.2%,而 Dynamic-NTK 外延的 AquilaChat2-7B 准确率仅为 0.4%。 ▲ NLPE 与主流 Dynamic-NTK 外延方法在 SFT 模型上的能力对比 同时,智源团队开发了适配长文本推理的分段式 Attention 算子 PiecewiseAttention,高效地支持 NLPE 等面向 Attention Map 的优化算法,进一步减少显存占用、提升运算速度。 三、强大的泛化能力适应各类真实应用场景 强大的泛化能力对于大语言模型至关重要,它意味着模型能够有效地应对未见过的数据与新任务,而不仅仅仅在标准测试中表现出色、但在实际应用中表现不佳,陷入 " 高分低能 " 的陷阱。 悟道 · 天鹰团队通过三个真实应用场景验证了 Aquila2 模型的泛化能力。 1、利用 AquilaChat2 推理能力打造智能体(AI agent) 在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》(Minecraft)作为一款受欢迎的开放世界游戏,具有无限生成的复杂世界和大量开放的任务,为智能体提供了丰富的交互接口,进而成为近几年开放式学习研究的重要测试环境。 智源研究院与北京大学团队提出了在无专家数据的情况下高效解决 Minecraft 多任务的方法——Plan4MC。Plan4MC 可以使用内在奖励的强化学习训练智能体的基本技能,使得智能体可以利用大语言模型 AquilaChat2 的推理能力进行任务规划。 以下视频展示了智能体利用 AquilaChat2 进行自动完成多轮对话交互,将游戏 " 当前环境状态 "、" 需要完成的任务 " 等信息输入 AquilaChat2 模型,AquilaChat2 反馈给角色 " 下一步使用什么技能 " 等决策信息,最终完成了 Minecraft 游戏中设定的任务 "伐木并制作工作台放在附近" 的任务。 2、通过 Aquila2+BGE2 链接向量数据库 基于传统向量库的检索方式在一些简单问题场景下表现良好,但面对复杂的、需要深度理解的问题时,其效果有限。 Aqiula2+BGE2 的引入改变了这一局面(BGE 是智源团队开源的语义向量模型),彻底解锁了一些仅基于传统向量库的检索方法不能解决的复杂检索任务,例如检索某个作者关于某个主题的论文,或针对一个主题的多篇论文的生成总结文本。 ▲ Aquila2+BGE 文献检索场景复杂查询示例 "Give me some papers about summarization written by Mirella Lapata" 3、AquilaSQL:最优 " 文本 -SQL 语言 " 生成模型 AquilaSQL 可以充当 " 翻译员 ",将用户发出的自然语言指令准确翻译为合格的 SQL 查询语句,极大地降低数据查询分析的门槛。 在实际应用场景中,用户还可以基于 AquilaSQL 进行二次开发,将其嫁接至本地知识库、生成本地查询 SQL,或进一步提升模型的数据分析性能,让模型不仅返回查询结果,更能进一步生成分析结论、图表等。 基于 Aquila 基座模型优秀的代码生成能力,AquilaSQL 经过 SQL 语料的继续预训练和 SFT 两阶段训练,最终以 67.3% 准确率超过 " 文本 -SQL 语言生成模型 " 排行榜 Cspider 上的 SOTA 模型,而未经过 SQL 语料微调的 GPT-4 模型准确率仅为 30.8%。 AquilaSQL 开源仓库地址: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila/Aquila-sql 下面是一个复杂查询任务示例:" 从包含汽车销量(car_sales)、汽车颜色(car_color)的两个数据表中筛选销量大于 100 并且颜色为红色的汽车 "。 ▲ AquilaSQL 生成多表查询语句 四、持续全家桶级开源,Aquila2 系列创新训练算法同步开放 作为中国大模型开源生态的代表机构,智源早在 2022 年即开始打造 FlagOpen 飞智大模型技术开源体系。 不止于明星模型,智源持续贡献大模型全栈技术开源开放,带来一系列包括算法、数据、工具、评测方面的明星开源项目,真诚拥抱与回馈全球社区。 (责任编辑:admin) |