智源扔出大模型“全家桶”!开源最强中英双语(4)
时间:2023-10-26 20:33 来源:网络整理 作者:墨客科技 点击:次
[ 1 ] Llama2 吞吐量估算公式:total tokens/ ( total GPU hours * 3600 ) ,根据 Llama2:Open Foundation and Fine-Tuned Chat Models 论文:1)7B 的 total tokens 为 2.0T,total GPU hours 为 184320,代入公式得 3014Tokens/sec/GPU;2)34B 的 total tokens 为 2.0T,total GPU hours 为 1038336,代入公式得 535Tokens/sec/GPU。 [ 2 ] 根据 https://github.com/InternLM/InternLM#training-performance 可知 InternLM 7B 的 1024 卡能达到 3625Tokens/sec/GPU。 [ 3 ] 当前仅在英伟达 RTX3090 和 A100 以及天数的 MR-V100 上进行验证。 (责任编辑:admin) |