中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

科技 | 2024-09-20| 2

快科技9月20日消息,中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。

Llama3.1-405B作为4000亿参数规模的大模型,在息壤训推服务平台的支持下,经过多轮优化,MFU(算力利用率)达到国内领先水平。

另外,700亿参数大模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

据悉,天翼云的这套平台具备万卡纳管和并行训练能力,基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布式训练框架TeleFormers和平台,实现万卡资源纳管、万卡规模并行训练。

其中,天翼云自研了AI框架Teleformers,对算子、通信、数据处理进行优化,还有并行策略的自适应调整,显著提升了大模型训练的训练效率。

在目前业内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。

算子优化方面,针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。

比如matmul算子,利用昇腾芯片的计算亲和性,将算子输入padding到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。

数据处理和流水线方面,通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进行了二次分片并提供就近缓存能力,减少GPU空闲时间。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

自适应并行策略方面,基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

天翼云国产化万卡智算中心还有多项技术突破——

天翼云息壤训练服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调度和模型编译缓存等系统,将万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。

自动断点续训系统:

建设丰富的故障库,基于此构建了多维故障感知系统,能够快速主动感知相关故障事件和潜在的故障风险;

通过精准的故障隔离和调度手段,快速隔离处理故障节点并重新调度新节点接手任务继续训练,实现无人干预式断点续训,有效减少GPU闲置时间。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

高速多级CheckPoint系统:

天翼云设计基于多级存储的高速CheckPoint系统,通过两阶段异步存储,实现高速写入内存,并最终异步写入远端系统;

针对断点恢复场景,提供进程级故障原地快恢和远端快速恢复能力,最终实现对CheckPoint的秒级读写能力,大幅降低断点恢复时间、提升训练效率。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

全链路检测工具链:

天翼云开发了全链路故障监控工具链,能够基于主动感知实现全链路的故障监控和定位。

该工具链可以主动发现设备故障,并降低训练中断的频次,确保训练过程的连续性和稳定性。

以上就是关于【中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先】的相关消息了,希望对大家有所帮助!

相关推荐相关推荐

正在逐步覆盖!腾讯提醒勿为实况图重装微信:以免丢失微信聊天记录

正在逐步覆盖!腾讯提醒勿为实况图重装微信:以免丢失微信聊天记录

快科技9月20日消息,微信昨天正式宣布,朋友圈支持实况照片了。 不过目前并没有全量覆盖所有用户,依然在逐步覆盖中,导致很多想要晒图的用户并没有该功能。 部分用户甚至为了发实况照片,重装微信,结果不小心导致微信聊天记录全没了,结果live图还是发 ...

科技 3 2024-09-20
海拔3569米!国产大飞机C919首次从西藏起飞

海拔3569米!国产大飞机C919首次从西藏起飞

快科技9月20日消息,据媒体报道,今日,中国商飞国产大飞机C919从海拔约3569米的拉萨贡嘎国际机场起飞,这是C919飞机首次从西藏起飞。

科技 3 2024-09-20
销量坐火箭 第20000辆吉利银河E5交车:李书福亲自交付

销量坐火箭 第20000辆吉利银河E5交车:李书福亲自交付

快科技9月20日消息,吉利汽车销售公司总经理范峻毅官宣,第20000台吉利银河E5今日交付,吉利汽车董事长李书福亲自出席交车仪式并交付新车给用户,此时距离该车上市仅过去了45天。

科技 3 2024-09-20
华为三折叠首销一机难求!部分TOP368大客户都没分到货

华为三折叠首销一机难求!部分TOP368大客户都没分到货

快科技9月20日消息,今天上午10:08,华为Mate XT非凡大师三折叠屏手机正式开售,在开始抢购后全部型号瞬间全部售罄,一机难求。

科技 2 2024-09-20
游戏科学发布声明:大量《黑神话:悟空》周边产品未获授权 谨慎购买

游戏科学发布声明:大量《黑神话:悟空》周边产品未获授权 谨慎购买

快科技9月20日消息,今天是《黑神话:悟空》满月日,上个月20日游戏正式上线。 根据VG Insights最新数据显示,《黑神话:悟空》在Steam平台上的销量已经达到了2000万份,总收入超过9.61亿美元(约合人民币超67.9亿元)。 该作甚至已经成了国民级游戏,国 ...

科技 3 2024-09-20
客服回应穿lululemon做核磁或被灼伤:部分产品含银离子

客服回应穿lululemon做核磁或被灼伤:部分产品含银离子

快科技9月20日消息,据媒体媒体报道,有网友在社交平台爆料,不要穿lululemon等品牌的衣物去做核磁共振,其内含有金属,如果穿着此类衣物做核磁共振会导致皮肤灼伤。

科技 4 2024-09-20
479元!米家桌面学习灯pro开售:全光谱LED灯珠、自适应调光

479元!米家桌面学习灯pro开售:全光谱LED灯珠、自适应调光

快科技9月20日消息,米家桌面学习灯Pro今日在京东平台开售,价格为479元。 米家桌面学习灯pro采用两段式出光长灯头设计,搭载锌合金转轴,灯头可多角度旋转,适配不同的用灯需求。 该学习灯还采用三层导光结构、全新的星环指示灯,配备120颗灯珠,可以降 ...

科技 2 2024-09-20
厂商探索了N多种屏幕形态:最后发现等深微曲屏才是未来

厂商探索了N多种屏幕形态:最后发现等深微曲屏才是未来

智能手机技术的发展,屏幕形态也经历了从单一到多元的变化,从最初的直屏到现在的曲面屏、微曲屏甚至折叠屏,每一次变革都为用户带来了全新的体验。

科技 3 2024-09-20
华为海外创新发布会多款重磅新品发布:加速海外市场布局

华为海外创新发布会多款重磅新品发布:加速海外市场布局

9月19日,华为全球创新产品发布会在巴塞罗那盛大举行,进一步巩固了其在全球市场的影响力。

科技 2 2024-09-20
自己搞定卡脖子技术!余承东:制裁某种意义是坏事变好事

自己搞定卡脖子技术!余承东:制裁某种意义是坏事变好事

快科技9月20日消息,在今天央视新闻直播的华为Mate XT三折叠新机首批交付仪式上,余承东谈到了半导体行业全球一体化分工格局或被打破的问题。

科技 4 2024-09-20