AIStation全流程简化和提速大模型训练
浪潮信息AIStation提供了系统性软硬一体优化的平台与软件栈能力,来保障大模型的训练需求。AIStation平台从资源使用与调度、训练流程与保障、算法与应用等角度进行了系统性的优化,实现了对大模型训练的端到端优化和加速。
▲ 毫秒级调度,高效使用大规模算力,解决算力利用低难题
AIStation在大模型训练实践中,针对云原生调度系统性能做了优化,实现了上千POD极速启动和环境就绪。如下表所示,AIStation调度器与原生社区版相比,能大幅提升大规模POD任务的调度性能,尤其能保证大模型训练的计算资源的调度使用。
此外,AIStation平台能够支持大模型特有的开发模式,提供多种尺度作业资源使用方式,包括小尺度资源调度,大尺度资源调度、高性能调度等。算力调度器通过动态、智能地管理和调配集群计算资源,制定合理的作业执行计划,以最大限度地利用资源,满足各类训练任务的时延和吞吐需求,保证作业高效稳定运行,实现算力平台高利用率、强扩展性、高容错性。
通过多种资源高效管理和调度策略,AIStation能实现毫秒级调度,将整体资源利用率提升到70%以上,帮助客户更好地利用计算集群算力,充分发挥算力价值。
▲ 高效网络资源管理,多卡加速比达90%,极致加速训练过程
AIStation定义了互相独立的计算高性能网络、存储高性能网络,并且支持交换机级别的资源调度,减少跨交换机流量,同时具备网络故障自动识别和处理功能。针对大模型训练通信要求高的场景,AIStation提供集群拓扑感知能力,容器网络与集群物理网络一致,保证了容器互联性能,满足训练通信要求。分布式通信优化结合集群的InfiniBand或 RoCE高性能网络和专门优化的通信拓扑,使得AIStation在千卡规模集群测试中,多卡加速比达到了90%。尤其AIStation对大规模RoCE无损网络下的大模型训练也做了相应优化,实测网络性能稳定性达到了业界较高水平。
借助AIStation平台,某大型商业银行实现了主流大模型训练框架,如DeepSpeed、Megatron-LM和大语言模型在RoCE网络环境的训练,快速实现大模型的落地实践。
▲ 大规模训练系统级别优化,故障处理时间缩短90%,最大限度降低实验成本
大模型任务提交时,经常会伴随着大量的环境配置、依赖库适配和超参数调整。AIStation能够自动化配置计算、存储、网络环境,同时对一些基本的超参数提供自定义修改,方便用户使用,通过几步就能启动大模型分布式训练,目前支持诸多大模型训练框架和开源方案,如Megatron-LM、DeepSpeed等。
AIStation在大规模训练集群上利用自研数据缓存系统,提高了训练前、训练中的数据读取速率,大大减少对存储系统和网络的依赖。配合优化的调度策略,与直接使用存储系统相比,可让模型训练效率获得200%-300%的提升,硬件性能100%释放。
健壮性与稳定性是高效完成大模型训练的必要条件。AIStation针对资源故障等集群突发情况,会自动进行容错处理或者执行弹性扩缩容策略,保证训练任务中断后能以最快速度恢复,为需要长时间训练的大模型提供可靠环境,平均将异常故障处理时间缩短90%以上。
综上,针对大规模分布式计算,AIStation内置分布式训练自适应系统,覆盖训练的全生命周期,满足了大模型训练的诸多诉求,提供资源使用视图、计算与网络调度策略、分布式训练加速、训练监控、训练容错与自愈能力,在加速训练的同时,能够自动定位故障和恢复任务,保证了训练的稳定性和效率。某银行客户在AIStation智能容错的机制保障下,在极其严苛的业务投产测试中能够实现快速故障排查和恢复,大幅降低业务投产上线时间。
AIStation助力行业提升大模型开发效率
AIStation平台在AI开发、应用部署和大模型工程实践上积累了宝贵的经验和技术,帮助诸多行业客户在资源、开发、部署层面实现降本增效。在垂直行业领域,AIStation平台帮助头部金融客户、生物制药服务公司快速利用密集数据训练、验证大模型,大大降低大模型业务成本。某大型商业银行基于AIStation打造的并行运算集群,凭借领先的大规模分布式训练支撑能力,荣获2022 IDC“未来数字基础架构领军者”奖项。
浪潮信息AIStation在大模型方面已经取得了诸多业界领先的经验和积累,实现了端到端的优化,是更适合大模型时代的人工智能平台。未来AIStation将与浪潮信息OGAI软件栈一同进化,进一步通过低代码、标准化的大模型开发流程,以及低成本和高效的推理服务部署,帮助客户快速实现大模型开发和落地,抢占先机。
联系电话:400-028-6620 028-85047200
公司地址:成都市武侯区一环路南二段2号新世纪商业中心东楼17楼B座
标签: 成都服务器 成都联想服务器 成都戴尔服务器 成都IBM服务器 成都惠普服务器