36氪:ChatGPT爆火后,如何跳脱算力困局?
“请代替基金经理写一段年终总结”,“如何评价春节档电影大混战”,“请写出一段爬取网页内容的程序”……诸如此类问题,OpenAI开发的ChatGPT都可以给出一段“中肯”的回答。
2023年开年,全球AI领域最“出圈”的成果莫过于ChatGPT了。作为一个具备问答、文章撰写等多重能力的对话式机器人,ChatGPT的强大“超能力”背后,是天量的训练数据与庞大的模型。
ChatGPT的前一代基础模型——GPT-3的参数就高达1750亿,训练数据高达45TB,训练设备包括超过28.5万个CPU和1万个GPU,仅训练成本就超过了1200万美元。ChatGPT基于GPT3.5架构的模型参数在此基础上至少提升了2个量级,对强算力的需求就更高。
破题新思路,四代至强新添七大算力神器
一想到算力提升,最容易想到的解决方案就是“堆核”,即通过增加核心频率和核心数量来提升整体数据处理速度。
但想要面向云计算、物联网、人工智能、5G等真实、多样应用场景下的工作负载提升CPU性能,充分利用CPU资源并且节约成本,“堆核”显然不是最优解。
正如英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立所说,“我们更关注客户如何使用我们的产品,并不是越多核就一定越好,今天的许多用户在使用数据中心处理器时,也并非一味执着于多核,而是具体工作具体分析。”1
基于在各个行业与场景实践中积累的丰富经验,英特尔重塑破题思路,发布了全新的第四代英特尔®至强®,引入针对实际工作负载优化加速的设计理念,采用系统级设计方法,在CPU中内置针对各种工作负载的专用加速器,与上一代相比,实现了通用计算平均性能提升53%,并且能够将目标工作负载的平均每瓦性能提升2.9倍。而在优化电源模式下,每个CPU节能高达70瓦,并对性能只产生极低的影响,将总体拥有成本降低52%到66%,做到带来领先性能的同时实现可持续发展 。2
全新的英特尔®至强®平台提供了七大算力神器——
-
面向深度学习场景的英特尔®高级矩阵扩展(英特尔®AMX),能将人工智能实时推理和训练性能提升至10倍;
-
面向网络数据系统的英特尔®动态负载均衡器(英特尔®DLB),可将网络工作负载的系统级处理性能时延降低96%;
-
增强数据移动效率的英特尔®数据流加速器(英特尔®DSA),帮助数据密集型工作负载数据移动和转换性能提升至1.7倍;
-
面向内存数据库和大数据分析工作负载的英特尔®存内分析加速器(英特尔®IAA),能显著优化数据分析工作负载内存占用和查询吞吐量,性能可提升至3倍;
-
面向数据流压缩及数据加解密的英特尔®数据保护与压缩加速技术(英特尔®QAT),使第四代英特尔®至强®可扩展处理器成为单一数据流压缩并加密数据性能最高的CPU;
-
增强工作负载安全性的英特尔®安全技术(英特尔®Security)策略组合,能够对工作负载进行保护,加速加密运算,实现预测性安全保护;
-
首款集成高带宽内存(HBM)的英特尔®至强®CPU Max系列,能够在无需变更代码的情况下为科学计算工作负载加速。
值得一提的是,第四代英特尔®至强®不仅具备卓越的加速性能,亦体现了重大的制造进展。其能够在一个封装上集成多达4个采用Intel 7制程工艺制造的单元,这些区块通过英特尔嵌入式多芯片互连桥接(EMIB)封装技术连接。第四代英特尔®至强®可扩展处理器还具备新特性,包括通过DDR5增加了内存带宽、通过PCIe5.0和Compute Express Link (CXL) 1.1互连增加了I/O带宽。
AI将社会发展导向新阶段
AI作画、ChatGPT对话机器人……随着深度残差网络(ResNet)、Transformer算法、Diffusion算法等技术进入应用阶段,2022年以来,AI领域不断迎来发展的“小高潮”,AI强大的能力成功吸引了大众目光,也带动了新一波数字技术的观念普及。
相比GPU提升训练效率的能力,拥有极佳性价比的CPU在AI应用的规模化部署和实践上同样发挥着重要作用。可以说,AI走入工程化阶段,面向大众提供服务,迫切需要不断提升CPU的性能,以实现高算力、强性能和低成本。
有数据显示,预计到2025年,超过60%的中国企业将通过人工智能、机器学习、自然语言处理(Natural Language Processing,NLP)和模式识别等技术实施智能预测与决策,提升员工工作效率和企业生产力。而面向推荐系统、自然语言处理、图像识别、媒体处理和交付,以及媒体分析等AI应用场景,用户需要更精准化地分析和快速地推理。
这其中,作为AI领域的重要分支,自然语言处理(NLP)正获得前所未有的市场关注与技术追踪,将大幅缓解金融、医疗、法律等行业中人力密集型工作环节带来的效率和成本压力。
作为国内拥有强大互联网基础的领先AI公司,得益于近十年来在自有“飞桨”人工智能框架上的前瞻布局和大力投入,百度已在NLP领域构建起了完整的产品体系与技术组合。而随着技术与产业结合的深入、商业化应用落地的加快,用户对百度飞桨文心 · NLP大模型的重要组成部分——ERNIE 3.0提出了更多细分需求,如更高的处理效率和更广泛的部署场景等。
为此,百度不仅借助其创新技术优势,推出了更适合落地应用的轻量版ERNIE-Tiny,同时与英特尔携手,引入了全新第四代英特尔®至强®可扩展处理器,其内置的英特尔®AMX在实际工作负载中,能同时支持BF16和INT8数据类型,其每个物理核在每个时钟周期可实现2,048次INT8运算和1,024次BF16运算,这无疑大幅提升了AI工作负载的效率。ERNIE-Tiny在升级使用内置英特尔®AMX的第四代至强®可扩展处理器后,整体性能对比上一代提升高达2.66倍3,推理性能大大提升。
“全新第四代英特尔®至强®可扩展处理器及英特尔®AMX技术的引入,使得轻量版ERNIE 3.0在通用CPU平台上也能获得令人满意的推理效能,从而能帮助更多用户在其既有IT设施中更为方便地部署ERNIE 3.0,从而进一步普及其应用范围。”百度自然语言处理部架构师孙宇即如此评价英特尔®AMX的杰出表现。
除此之外,由AI赋能的计算机视觉也已经成为企业获取数据洞察、推动业务智能化转型的重要途径。视觉AI解决方案能够利用增强型深度学习神经网络,以更精密的方式获取数据,将分析能力提升到全新水平,从而帮助企业提升工作效率、降低成本、增加收入并提高客户满意度。随着业务的发展与视觉数据的爆发式增长,企业希望能够在加速计算视觉AI模型训练和提高推理性能的同时,获得更高的投资收益。
美团作为与人们日常生活关系密切的科技零售公司,在其自身发展过程中,高度重视以视觉AI技术创新,赋能餐饮、出行、旅游、购物、娱乐等多种业务,充分践行“零售+科技”的战略。
为了加速视觉AI推理,美团利用第四代英特尔®至强®可扩展处理器及其内置的英特尔®AMX等高级硬件能力,将模型从FP32转化为BF16等方式,并结合了英特尔®PyTorch扩展(英特尔®IPEX)加速PyTorch,更有效地提升了深度学习推理和训练的计算性能,将主流视觉模型的推理性能提升了3.38-4.13倍左右。同时,结合动态扩缩容等头部服务优化策略,美团将线上资源效率整体提升3倍以上,节省70%的服务成本4,实现了资源的敏捷调度,支持了视觉AI服务的高效创新,并赋能了业务智能化升级。