Zen 5对比初代已提升85%!AMD CPU/GPU/NPU三大新架构揭秘
6月初的台北电脑展上,AMD正式发布了基于新一代Zen 5架构的锐龙AI 300系列笔记本处理器、锐龙9000系列桌面处理器,均将在7月份上市。
当时,AMD比较罕见地大方公布了具体型号命名、规格参数(隔壁的Lunar Lake还只有架构和技术),不过关于新的CPU/GPU/NPU架构并没有讲太多,桌面上的新一代主板芯片组也只说了一个大概,算是留了一些悬念。
上周,AMD特意在美国举办了一场Zen 5 Tech Day技术活动,终于揭开了新架构的神秘面纱,并公布了更多性能数据、技术特性,尤其是新的处理器与内存超频。
至于确切的上市时间,锐龙AI 300笔记本是7月28日,锐龙9000系列是7月31日。
【Zen 5架构:整体加宽加大、独享Intel秘笈】
Zen架构诞生于2017年,相比于此前的推土机架构IPC大幅提升52%,远超当初设定的40%目标,在整个微处理器历史上都是极为罕见的进步。
7年来,Zen架构不断深入打磨,如今已经演化到第五代,是一次相当大幅度的变革,包括增加每时钟周期指令数、拓展指令分派与执行带宽、翻倍缓存数据带宽、AI加速等等。
CPU架构设计是一个极为复杂的工程,哪怕是个升级版本。
Mike Clark已经在AMD工作了31年之久,如今是AMD院士、芯片设计工程师,也是历年来Zen架构研发的灵魂人物,被称为“Zen之父”(Father of Zen)、“Zen老爹”(Zen Daddy)。
他动情地表示,人们往往意识不到CPU架构设计有多难,需要多么漫长的时间,比如Zen 5的研发,就是全球多地大量的设计、验证、软件等团队多年来全身心投入的心血结晶,它甚至已经融入了大家的血液之中,很多人吃饭甚至做梦的时候都想着它,而最终看到自己的努力开花结果,是一件相当了不起的事情。
Zen 5的三位设计师,左一为Mike Clark
接下来我们就看看Zen 5架构在不同模块的变化,当然我们只能大略地讲一讲高级层面的,不涉及太深入的细节。
其实,现代CPU架构都有着成熟的体系,整体可分为前端、后端两大部分,细分包括指令预取与解码、整数执行、浮点执行、载入存储、缓存等不同单元模块。
除非出现完全颠覆性的计算体系,CPU架构设计师要做的,就是根据预设目标,确定不同单元模块的规格规模,然后有机地组合为一个整体,发挥出最大效率,既不能造成浪费,也不能出现瓶颈。
就像一条水渠或者水管,一般情况下自然是水流量越大越好,但也不能一味地加宽加粗,从源头到末端要整体协调一致,既不能让水不够了,也不能让水堵住了,讲究的就是一个平衡。
_ueditor_page_break_tag_Zen 5的整体思路就是适当放大规模,很多地方甚至翻番,比如前端部分改成了双预取、双解码流水线,可以更高效地处理各种负载,打个比方就是源头水闸更开放,能释放的水流量更足。
同时,分支预测也做了极大提升,吞吐量更大,精度更高,延迟更低,而且指令缓存的延迟和带宽同样得到了提升,就像是水渠也更宽敞了,面对更多的水流不会出现溢出情况。
整数执行单元加宽了指令的分派与执行通道,包括分派与引退增加到8个宽度,执行窗口增大,一体化ALU调度器数量更多,包括六个ALU与四个AGU。
浮点与矢量执行单元那部分,最核心变化就是在Zen 4架构引入AVX-512指令集的基础上,从仅支持256位数据宽度,强化为支持完整的512位。
256位下的灵活性更高,因为不是所有的指令都需要用到512位这么宽,而现在加入512位满血版之后,可长可短,可以在保持灵活性的同时,大大提升执行效率和性能。
更耐人寻味的是,Intel方面由于异构混合架构设计的缘故,新一代的Lunar Lake、Arrow Lake都不支持AVX-512,何时能够回归也不一定。
谁能想到,Intel当年的独门武器,如今反而成了AMD的私房菜。
另外,浮点单元的流水线有6条,FADD指令的延迟只有2个时钟周期。
载入存储单元部分大大提升了数据带宽,其中一级数据缓存容量从32KB增大到48KB,同时从8路增强为12路。
通往一级缓存、浮点单元的最大带宽,也比上代翻了一番,并改进了相应的数据预取。
另外,数学加速单元的性能有了突飞猛进,单核心执行数学学习、AES-XTS指令的速度分别可提升最多32%、35%。
这有啥好处?当然是可以极大地加速AI运算的效率,更适应当下环境,特别是在EPYC处理器中搭配Instinct加速器,效果更是相得益彰。
凭借这一系列改进,Zen 5架构的IPC提升平均多达16%(可以理解为同频性能提升),部分场景提升甚至高达35%。
其中贡献最大的是指令执行与引退部分的改进,然后是数据带宽、指令解码与OP缓存的提升,最后是指令预取与分支预测的变化。
根据历年的官方数据,Zen+、Zen 2、Zen 3、Zen 4相比前代的IPC提升平均幅度分别为3%、15%、19%、13%。
五代六个版本演进累积下来,Zen 5相比于初代Zen IPC平均提升幅度已经高达约85%!
别忘了频率也在不断拉高,初代最高只有4.0GHz,如今已经高达5.7GHz,提升幅度约43%。
产品方面,面向台式机的锐龙9000系列,会使用纯粹的Zen 5,还是CCD+IOD的组合。
CCD部分工艺从5nm升级为4nm,每个里边最多8核心,总计最多16核心。
IOD部分沿用锐龙7000系列的,因此还是6nm,集成两个RDNA 2架构的GPU图形核心。
移动端的锐龙AI 300系列全部都是Zen 5、Zen 5c的组合,如上图右下角部分,下方四个橙色调的是Zen 5,上方八个紫红色调的是Zen 5c。
不同于Intel异构架构,Zen 5、Zen 5c还是完全相同的架构设计、IPC性能、ISA指令集,不同之处只是后者缓存更小、频率更低(但能效更高)。
锐龙AI 300系列的制造工艺为4nm,和上代锐龙7000/8000系列一样。
在数据中心端,第五代Turin EPYC将在今年下半年发布,使用先进的4nm、3nm工艺组合,这也是AMD第一次引入3nm。
Turin EPYC将升级到多达192核心384线程,新特性方面官方特别提到了基于Trust IO功能的AI加密,无疑可以更好地满足当今的云端AI部署需求。
接下来,我们将会看到Zen 6、Zen 6c,后续的Zen 7也在研发之中,你猜都会用什么工艺?
_ueditor_page_break_tag_
【RDNA 3.5架构:三大优化 跑分飙升32%】
凭借雄厚的积累,AMD在集显领域一直独领风骚,锐龙AI 300系列更是集成了专门设计的RDNA 3.5架构,并扩大了核心规模,新一代的Radeon 800M系列再上一个新台阶,根本找不到敌手。
RDNA 3.5在架构设计上自然承袭了RX 7000独立显卡使用的RDNA 3,并针对笔记本的应用场景需求做了三个方面的专门优化:
一是优化能效比。
比如,大多数通用纹理采样操作的速率翻了一倍,大多数差值、对比用的富矢量指令集的速率也翻了一番,可以大大提升常规游戏中的纹理、着色性能。
二是优化内存性能(performance/bit)。
通过改进原语批处理,减少对系统内存的依赖和占用,效率也更高,特别是优化对LPDDR5内存的访问和使用,此外还改进了压缩技术、 降低了负载。
三是优化电池续航。
通过集成先进的电源管理机制,可以大大降低活跃状态下的功耗,对笔记本更加友好。
按照官方说法,在同样的15W功耗释放下,Radeon 800M系列对比前代的3DMark理论性能,在Night Raid和Timespy项目中分别提升了多达19%、32%。
当然,理论跑分不等于实际游戏性能,但是OEM厂商也可以灵活设定功耗释放,配合更高频率的内存,进一步挖掘RDNA 3.5的潜力。
_ueditor_page_break_tag_
【XDNA 2 NPU架构:算力全球第一、首发全新数据格式】
锐龙7040系列是全球第一款集成NPU AI独立引擎的x86处理器,锐龙8040系列在此基础上大幅提升性能。
目前,AMD已经积累了丰富的AI PC生态,硬件方面有宏碁、华硕、戴尔、惠普、联想等各大品牌的支持,软件方面发展了100多个AI优化功能,无论是Windows 11系统本身,还是Adobe、Black Magic、Blender、Topaz Labs、Webex、Zoom等头部应用都已支持。
AMD预计今年会有150多家ISV软件商支持AMD AI PC功能。
锐龙AI 300系列升级到了全新的XDNA 2架构,也是AMD的新一代NPU。
最直观的变化,就是AI引擎单元从20个大幅增加到32个(分为四行八列),而每个单元内的MAC数量也翻了一番。
再加上板载内存容量增加1.6倍、Block FP16块状浮点格式支持、非线性增强支持、8条并发空间流(翻倍),算力从初代的10 TOPS大幅增加到50 TOPS (INT8和Block FP16)。
这是全球第一个达到如此高度的NPU,远超Intel Lunar Lake、高通骁龙X Elite、苹果M4等竞品。
值得一提的是,XDNA 2不但增加了核心单元,还可以灵活分区使用,包括空间分区、时间分区。
空间分区适合并发实时模型,可以将不同列的核心单元分配给不同的任务,比如2个列负责实时视频、2个列负责实时音频、4个列负责App应用。
时间分区适合大模型,可以整体先后执行不同的任务,比如先全力处理LLM大语言模型,然后集体进行视频编辑。
根据负载不同,XDNA 2可以按照一个或多个列分别开关(4/8/16/20/24/28/32),也就是轻度任务下能关掉部分核心,从而节省功耗,能效比初代提高了一倍。
对于AI应用来说,数据类型是至关重要的,XDNA 2架构行业首创支持了开放的Block FP16浮点格式,综合了8位数据的性能、16位数据的精度。
它本质上也是一种16位格式,因此拥有非常接近传统FP16(单精度)甚至是FP32(双精度)的高精度,AMD官方数据显示一般可以做到FP32格式的99.7%到100%,也就是几乎无损,可以无缝衔接使用FP16、FP32、BF16训练的模型,不需要额外的量化。
此外,Block FP16还有着类似9位格式的存储空间、8位格式的吞吐性能,因此模型体积相比于FP16可减小足足44%,计算性能与INT8格式相当、是FP16的两倍。
AMD宣称,Llamav2 7B大模型用上锐龙AI 300系列、Block FP16格式,响应速度可以达到Intel酷睿Ultra 100处理器的整整5倍。
AMD现场就演示了锐龙AI 300处理器运行Llama 2 7B大模型时的RAG(检索增强能力)。
比如直接问它AMD的新一代NPU架构的名字,因为没有学习过,就会胡乱回答什么7nm RDNA,然后喂给它AMD在台北电脑展上的演讲,它立刻就能学习并给出正确的答案,不仅知道XDNA 2架构的名字,还知道它的新特性。
NPU能力的发挥,离不开开发平台的支持,AMD也制定了长期、稳定的锐龙AI路线图。
第三季度将有锐龙AI 1.2版本,正式支持Block FP16数据格式、C++ API,以及各种最新AI模型,比如Llama 2/3、通义千问1.5、Stable Diffusion XL-Turbo等等。
第四季度升级到1.3版本,扩展支持更多模型,并首次支持WSL Linux子系统。
明年第一季度继续升级到1.4版本,首次带来AMD一体化AI堆栈,并继续为新的SOTA Gen模型进行优化。
AMD还举了一个典型案例,能将手机作为专业摄像头的免费软件Camo,已经支持AMD NPU,而且得益于方便的锐龙AI开发套件,可以轻松将现有的ONNX运行模型从GPU集显迁移到NPU上。
AMD还披露了下一代NPU的规划,算力、能力进一步强化,可以直接处理大模型,更多接手和分担CPU、GPU的工作。
_ueditor_page_break_tag_
【锐龙9000系列与芯片组、超频:内存玩出花】
锐龙9000系列首发四款型号的规格大家都已经有所了解,不再赘述了。
从定位上讲,锐龙9 9900X、锐龙7 9700X、锐龙5 9600X对标的分别是i9-14900K、i7-14700K、i5-14600K。
至于旗舰级的锐龙9 9950X……寂寞无敌啊。
值得一提的是,之前有传闻称AMD有意提高锐龙7 9700X的功耗,从现有的65W开放到120W,从而在性能上超过锐龙7000X3D,但最终还是选择了按兵不动。
毕竟,锐龙9000X3D也不远了,而且按照AMD给出的数据,65W的锐龙7 9700X游戏性能已经领先于初代3D缓存版105W功耗释放的锐龙7 5800X3D,而且功耗更低,这就够了。
锐龙9000系列每一款型号的性能都比前代有了较大的提升,少则11%、多则22%不等,但更值得关注的是功耗反而更低了,除了旗舰锐龙9 9950X之外热设计功耗都降低了一个档次,锐龙7 9700X、锐龙5 9600X更是只有以往标准版的水平。
除了新架构、新工艺,这也得益于散热能力的提升,官方表示改进了15%,因此还带来了另一个好处,就是温度更低,同等TDP下一般要低7℃左右。
超频方面,AMD第二代支持DDR5内存,已经掌握得相当熟练,玩法更多了。
默认频率支持为JEDEC 5600MHz,通过新的AGESA代码和BIOS更新,可以轻松超到8000MHz。
新增内存实时超频,可以在系统正常运行过程中,搭配内存优化性能配置档案,随时通过Ryzen Master软件,一键超至自己需要的频率,也可以随时切换回来。
更进一步地,所有AM5平台芯片组都会开放内存超频,不做限制,当然超频能力肯定会有所不同,具体要看主板相关设计。
处理器超频的话,最方便的自然是直接打开PBO,交给系统自行处理,一般来说能轻松带来6-15%的性能加持。
如果你动手能力比较强,要挖掘更多潜力,AMD也在继承原有Curve Opitimizer的同时,提供了新的“Curve Shaper”。
Curve Shaper更进一步允许玩家最大化地调节降压曲线,提供多达15组频率/温度组合(3种温度+5种频率),可以自行添加或删除,但暂时还不支持自定义具体数值。
注意,这一设置适用于所有核心,不能单独针对某个核心进行调节。
芯片组方面是新的AMD 800系列,旗舰型号是X870E,双芯片,相比于X670E主要是标配USB4接口,支持更高DDR5 EXPO频率。
X870简化为单芯片,PCIe扩展会少一些,但是也会更便宜。
B850用于取代B650,显卡升级支持PCIe 5.0。
B840是新增的低端型号,不支持处理器超频,但可以超内存,显卡和SSD都是PCIe 4.0,也不支持USB4,扩展通道只有PCIe 3.0。
不得不夸一下AMD接口的长寿命,实在良心——Intel Arrow Lake可是又要更换LGA 1851。
AM4经历了长达9年的生命周期,累计发展出了145款CPU/APU处理器。
AM5刚刚进入第二代,已有产品38款,官方承诺将会延续到2027+年,比之前说的2026+年又多了一年。
_ueditor_page_break_tag_
【锐龙AI 300系列:骁龙X Elite根本不够看】
锐龙AI 300系列更简单,首发只有两款型号,锐龙AI 9 HX 370、锐龙AI 9 365,关于它们的规格参数也不再重复。
可以确认的是,锐龙AI 9 HX 370包含4个Zen 5、8个Zen 5c核心,锐龙AI 9 365则是4个Zen 5、6个Zen 5c的组合。
AMD官方也确认,这种组合设计只用于笔记本移动端,不会用于桌面。这和Intel的大小核大相径庭。
性能方面,AMD不仅对比了酷睿Ultra9 185H,更对比了势态咄咄逼人的高通骁龙X Elite,无论CPU生产力、内容创作性能,还是GPU游戏性能,自然都不是对方可以媲美的,差距相当明显。
特别是高通的ARM架构在Windows PC下面临着难以根治的兼容性问题,在x86阵营超过60亿台Windows设备、超过10万款Windows游戏、超过3500万款Windows应用的生态面前不值一提,尤其是不少游戏甚至根本跑不起来。
新一代的Radeon 890M则凭借升级的RDNA 3.5架构、更多的核心单元(16个),已经可以在高画质下流畅运行不少3A游戏。
AI方面,锐龙AI 300系列一方面与微软密切合作,完全支持Windows 11 Copilot+的各项功能,包括回顾、视频会议、实时翻译、共同创作等,各大OEM厂商也在纷纷开发推广各自的AI应用。
比如华硕的StoryCube、华擎的LiveArt、惠普的AI Companion、联想的小天智能体等等。
更何况,AMD有着行业唯一的全链条AI平台,从云侧到边缘计算,从企业到消费级,强大的CPU、GPU、NPU三位一体,可以带来全范围、无妥协的AI体验。
锐龙AI 300系列,也必将是AI PC历史上浓墨重彩的一笔。
版权声明
本站所有文章来源于本站原创或网络,如有侵权请联系删除。文章观点并不代表本站观点,请网友自行判断,如涉及投资、理财请谨慎应对!
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。