欢迎来到亿配芯城! | 免费注册
你的位置:ADI亚德诺半导体-芯片线上商城 > 芯片资讯 > 英特尔CPU助力AI,支持200亿参数大模型加速
英特尔CPU助力AI,支持200亿参数大模型加速
发布日期:2024-02-10 11:23     点击次数:194

近年来,人工智能应用领域出现了意想不到的趋势,许多传统企业开始选择在CPU平台上实施和优化人工智能应用。

在制造领域,一些企业开始使用CPU和其他产品组合来构建跨“云边端”的人工智能缺陷检测方案,以取代传统的人工缺陷检测方法。该方案在高度精细和耗时的缺陷检测环节中表现良好,提高了生产效率和产品质量。

此外,亚信科技在其OCR-AIRPA方案中采用CPU作为硬件平台,实现了从FP32到INT8/BF16的量化,从而增加了吞吐量,加速了可接受精度损失下的推理。该方案将人工成本降低到原来的1/5到1/9,效率提高了5-10倍左右,给企业带来了显著的成本降低和效率提高。

CPU在人工智能制药领域最重要的算法——AlphaFold2等大型模型中也发挥了重要作用。自去年以来,CPU将AlphaFold2端到端的通量提高到原来的23.11倍;现在,CPU再次提高了3.02倍。

这些广泛使用的CPU都有一个共同的名称——最强,即英特尔最强可扩展处理器。为什么CPU而不是GPU或人工智能加速器来处理这些人工智能任务?

这是因为许多人工智能应用程序需要与企业的核心业务密切相关,同时需要推理性能和核心数据。因此,对数据安全和隐私的要求也很高,需要本地化部署。结合这一需求,考虑到传统行业更熟悉、更容易获得和使用CPU,服务器CPU混合精度的推理吞吐量是他们以更快、更低的成本解决自己需求的方法。

最近,英特尔的服务器CPU再次进化。第五代英特尔至强可扩展处理器于12月15日正式发布。英特尔说,一个为人工智能加速而生的更强大的处理器诞生了。该处理器的核心数量增加到64个,配有320MBL3缓存和128MBL2缓存。与以往的最强相比,无论是单核性能还是核心数量,都有了明显的提升。在最终性能指标方面,与上一代产品相比,平均功耗增加21%,内存带宽增加16%,三级缓存容量增加近3倍。

人工智能正在推动人与技术互动模式的根本转变,其中心是计算能力。英特尔首席执行官帕特·基辛格在2023年英特尔ON技术创新会议上表示:“在这个人工智能技术和工业数字化转型快速发展的时代,英特尔保持着高度的责任感,帮助开发者,使人工智能技术无处不在,使人工智能更容易接触、更可见、更透明、更值得信赖。”

第五代英特尔强可扩展处理器是英特尔在人工智能领域的最新突破。它不仅具有很强的计算能力,而且专门优化了人工智能的工作负载。与上一代产品相比,第五代强可扩展处理器的训练性能提高了29%,推理性能提高了42%,充分展示了其在人工智能领域的强大实力。

英特尔强可扩展处理器的每个核心都具有人工智能加速功能,使其能够有效地处理各种人工智能工作负荷。为了进一步提高人工智能的性能,英特尔在第四代强可扩展处理器中引入了AMX(高级矩阵扩展),这是一个专门用于矩阵计算的单元,可以被视为CPU上的Tensor Core。AMX成为内置在CPU的AI加速引擎,从第四代到强可扩展处理器。

第五代强可扩展处理器使用AMX和AVX-512指令集,具有更快的核心和更快的内存,使生成人工智能在没有独立人工智能加速器的情况下运行得更快。这使得处理器更容易处理严格的人工智能工作负载。

在自然语言的帮助下处理(NLP)推理实现了性能的飞跃。这种全新的强大能力可以支持智能助手、聊天机器人、预测文本、语言翻译和其他工作负载,响应更快。运行参数为200亿的大型语言模型时,延迟不得超过100毫秒。

第五代至强可扩展处理器除了在人工智能负载处理方面的出色表现外,还全面提高了能效、运行效率、安全性和质量。它为前代产品提供软件和引脚兼容性支持,以及硬件级安全功能和可信服务。

国内云服务大厂阿里云在新闻发布会上披露了实际测量经验数据。基于第五代英特尔至强可扩展处理器和AMX、TDX加速引擎,阿里云创造了“生成人工智能模型和数据保护”的创新实践。该实践使第八代ECS实例加强了安全性能,ADI亚德诺半导体,芯片线上商城,模拟芯片保持了实例价格不变,包容了客户。

数据显示,在数据全过程保护的基础上,人工智能推理性能提高了25%、QAT加解密性能提升20%、数据库性能提高25%,音视频性能提高15%。这充分展示了第五代至强可扩展处理器在处理各种工作负荷方面的强大能力。

英特尔说,第五代强可扩展处理器可以是人工智能、数据库、网络和科学计算工作负载带来更强的性能和更低的TCO,将目标工作负载的每瓦性能提高10倍。

为了使CPU能够有效地处理人工智能任务,英特尔还提高了人工智能加速能力「开箱即用」的程度。AMX除了能加快深度学习的推理和训练外,还支持流行的深度学习框架。TensorFlow常用于深度学习开发者、英特尔oneAPI深度神经网络库在PyTorch上(oneDNN)在指令集层面提供支持,使开发人员能够在不同的硬件架构和供应商之间自由迁移代码,更容易地利用芯片内置的人工智能加速能力。

英特尔利用高性能开源深度学习框架Openvino工具套件,帮助开发者实现一次性开发和多平台部署,以确保人工智能加速的直接可用性。它可以在各种英特尔硬件环境中快速实现热门框架训练模型的转换和优化,帮助用户最大限度地利用现有资源。Openvino工具套件的最新版本也增加了大型语言模型(LLM)提高性能可以支持生成人工智能工作负载,包括聊天机器人、智能助手、代码生成模型等。

OpenVINO 工具套件2

通过这一系列技术,英特尔允许开发人员在几分钟内调整深度学习模型,或完成中小型深度学习模型的培训,在不增加硬件和系统复杂性的情况下获得独立人工智能加速器的性能。

例如,在先进的预训练大语言模型中,英特尔的技术可以帮助用户快速部署。

用户可以从最受欢迎的机器学习代码库Huging 在Face中下载预训练模型LLaMA2,然后使用英特尔 PyTorch、英特尔 Neural 将模型转换为BF16或INT8精度版本,以减少延迟,然后使用Pytorch进行部署。

英特尔表示,为了跟上人工智能领域的趋势,数百名软件开发人员不断提高常用模型的加速能力,使用户能够跟上最新的软件版本,同时获得对先进人工智能模型的支持。

第五代至强 目前,一些大型工厂已经验证了可扩展处理器的实力。火山发动机与英特尔合作升级了第三代弹性计算实例。

目前,火山发动机已经建立了数百万核弹性资源池,通过其独特的潮汐资源和池能力,可以提供数量使用体验,降低云成本。基于第五代英特尔 至强 可扩展处理器,火山发动机第三代弹性计算实例整机计算能力再次提高39%,应用性能最高提高43%。

这只是一个开始。可以预见,从第五代到强,很快就会有更多的科技公司应用 从可扩展处理器的性能中受益。

下一代至强已经出现了

未来,人们对生成人工智能的需求将继续扩大,更多的智能应用程序将改变我们的生活。在计算能力的基础上,万物感知、万物互联、万物智能的时代正在加速。

面对这一趋势,英特尔正在加快打造下一代最强CPU,它们面向人工智能「专业化」程度会更高。

在最近披露的英特尔数据中心路线图上,下一代至强 处理器将为不同的工作负载和场景配备不同的核心,其中主要计算密集型和人工智能任务的型号将使用关注性能输出的核心「P-core」,面向高密度和横向扩展负载的型号将使用能效更高的核「E-core」,这两种核心结构并存的设计,既满足了一些用户对极端性能的追求,它还可以满足绿色节能可持续发展的需要。

未来,英特尔将如何实现晶体管和芯片性能的飞跃,以及人工智能计算能力的飞跃?

让我们拭目以待。

*一些图片来自网络。如有侵权行为,请联系本号删除*