GMS资讯网 > 数据

NVIDIA GPU 有助于提高模型训练和推理成本效益

2023-09-29 15:04

无限推荐系统承载了腾讯PCG（平台与内容集团）的推荐场景，包括：腾讯看店（浏览器、QQ看店、商业化）、腾讯新闻、腾讯视频、腾讯音乐、阅文、App Store、小拼拼等。无量推荐系统支持数亿日活跃用户，上千种车型，日均服务调用量达千亿。无限推荐系统可以在模型训练和推理中对海量Embedding和DNN模型进行GPU计算。是目前业界领先的架构设计。

传统推荐系统面临挑战

传统的推荐系统有以下特点：训练基于参数服务器的框架，解决了海量数据、稀疏特征的分布式训练问题。 Inference通常将大规模Embedding和DNN分开，只能进行DNN的GPU加速。因此，传统的推荐系统架构存在一定的局限性： 1.大规模的分布式架构有很多额外的开销，比如网络参数和梯度的发送和接收。 2. 随着DNN模型的复杂度进一步增加，CPU的计算速度开始捉襟见肘。随着业务的快速增长，日活跃用户数快速增加，调用量快速增加，这给推荐系统后端带来了新的挑战： 1. 模型更加复杂，调用量增加计算量较大，但参数服务器的分布式架构，有效计算比例很低。 2. 由于海量Embedding规模巨大，查询和聚合计算很难有效利用高性能GPU内存和计算能力。

GPU 有助于提高模型训练和推理成本效益

基于以上挑战，腾讯PCG（平台与内容事业群）选择采用基于NVIDIA A100 GPU的分布式系统架构来打造无限推荐系统。

1.通过多级存储和Pipeline优化，在HPC上完成大规模推荐模型的高性能GPU训练。 2、基于特征访问幂律分布的特点，GPU缓存高频特征参数，并动态从CPU获取低频特征参数，实现大规模推荐模型的完整GPU端到端模型推理。

腾讯PCG拥有多种类型的推荐业务场景。比如消息流推荐的QQ浏览器、新闻推荐的QQ观看、腾讯新闻、视频推荐的腾讯视频、微视、App推荐的App、腾讯音乐推荐的音乐、阅文文学推荐等。

无量推荐系统承载着针对这些推荐业务场景的模型训练和推理服务。基于传统推荐系统架构，无量推荐系统占用大量CPU资源，通过分布式架构可以扩展到TB级模型的训练和部署，取得了巨大成功。随着业务的快速增长，日活跃用户数快速增长，通话量快速增长。传统架构的局限性限制了推荐系统的架构扩展和性能提升。

通过使用GPU训练和推理，单台多卡机器的GPU计算能力可以达到数十台CPU机器的计算能力，节省大量额外的分配开销。通过充分利用A100 GPU的高性能内存快速访问Embedding和并行计算能力来处理DNN推理，单个A100 GPU可以在相同延迟下推理10倍于CPU的评分样本。目前推荐的基于GPU的架构可以将模型训练和推理的成本效益提高1到3倍。

未来，无量推荐系统将持续优化推荐模型在GPU上的应用，利用HPC多机、多卡、混合精度等能力，进一步提高GPU在推荐场景中的使用性价比。

重的！快速浏览 NVIDIA 行业微型网站！内容涵盖了NVIDIA 12大行业解决方案，以及NVIDIA目前的重点产品资讯。

责任编辑：haq

-->