昆仑万维开源130亿参数大模型,0门槛商用、多榜
时间:2023-11-02 05:10 来源:网络整理 作者:墨客科技 点击:次
▲头图由AI生成 国内首个全面开源百亿级大语言模型、目前最大的中文开源数据集之一发布。 编辑 | ZeR0 智东西10月30日报道,今日,昆仑万维正式发布国内首个全面开源百亿级大语言模型「天工」Skywork-13B系列,600GB、150B Tokens的高质量中文开源数据集,并全面开放商用。 也就是说,开发者无需额外申请,即可将大模型进行商业用途,而且开源得足够彻底,没有对行业、公司规模、用户等方面的任何限制。 2008年成立、从游戏起家的昆仑万维,近年已逐渐构建了AGI与AIGC、海外信息分发与元宇宙、投资三大业务板块,业务覆盖全球一百多个国家和地区,全球平均月活跃用户近4亿。 昆仑万维「天工」Skywork-13B系列拥有130亿参数,包含Skywork-13B-Base、Skywork-13B-Math两个大模型,在CEVAL、GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,在中文科技、金融、政务等领域表现均高于其他开源模型。 除模型开源外,Skywork-13B系列大模型还将开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这是目前最大的中文开源数据集之一。 Skywork-13B下载地址: https://modelscope.cn/organization/skywork https://github.com/SkyworkAI/Skywork 01. 130亿参数、两大模型、150B中文数据集,全面开放商用! 昆仑万维「天工」Skywork-13B系列包括两大模型及150B高质量中文数据集。 其中,Skywork-13B-Base模型是基础模型,由3.2万亿个多语言高质量数据训练而成,在CEVAL、CMMLU、MMLU、GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Math模型,顾名思义,经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。 Skypile/Chinese-Web-Text-150B数据集,是根据昆仑万维经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源数据集大小约为600GB,包含约1500亿个token,是目前最大的开源中文数据集之一。 除此之外,Skywork-13B系列还公开了模型中使用的评估方法、数据配比研究和训练基础设施调优方案等。 为了更加精细化利用数据,Skywork-13B系列采用两阶段训练方法,第一阶段使用通用语料进行模型通用能力学习,第二部分加入STEM(科学,技术,工程,数学)相关数据进一步增强模型的推理能力、数学能力、问题解决能力。 昆仑万维希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。 02. 五大特点:评测得分超越Llama 2, 无需申请即可商用 昆仑万维「天工」Skywork-13B系列大模型在CEVAL、GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。 昆仑万维将该系列大模型的特点总结为五个“最”: 1)最强参数表现:根据截至10月25日的数据,Skywork-13B系列模型在CEVAL、CMMLU、MMLU、GSM8K等权威评估基准中全面超越Llama-2-13B等开源大模型,在同等规模大模型间取得最佳效果。 与Llama-2-13B相比,天工Skywork-13B模型采用相对更加瘦长的网络结构,层数为52层,同时将FFN Dim和Hidden Dim缩小到12288和4608,从而保证模型参数量和原始Llama-13B模型相当。据昆仑万维前期实验对比,相对瘦长的网络结构在大Batch Size训练下可以取得更好的泛化效果。 2)最多训练数据:拥有130亿参数、3.2万亿高质量多语言训练数据,模型的生成能力、创作能力和数学推理能力提升明显。 3)最强中文语言建模能力:中文语言建模能力、中文文创能力出色,在科技、金融、政务、企业服务、文创、游戏等领域的中文文本创作评测中表现均高于业内其他开源模型。 如图用领域数据困惑度来衡量语言模型跨领域的语言建模能力。评估一个基础大模型的重要方式是评估其在各领域上生成文章的概率,困惑度通过评估模型预测下一个词的平均可选数量来衡量一个语言模型的好坏。困惑度越低,意味着语言模型生成高质量文本内容的能力越强。 (责任编辑:admin) |