多路芯发展之AMD——推土机架构预览
Doserv原创 Vicky Z 发表于:11年06月14日 15:48 [原创] 服务器在线
详解过AMD皓龙6000系列芯片的第一代产品后,我们来看下AMD即将在今年年底正式发布的“Bulldozer(推土机)”处理器架构的一些情况。该架构将采用32nm SOI 制程工艺,全面取代现有的45nm芯片制程,定位于高性能PC和服务器市场。
?该架构将两个整数单元与一个共享的浮点运算单元相结合,加大了整体浮点运算的速度。
?该图展示了双线程的工作原理,其整数单元独立在外,可以更好的完成多线程任务。
?推土机芯片架构的资源共享结构,同时保证两个整数运算单元的前提下,加入的浮点运算单元则与解码等操作进行资源共享,而且还加入了动态切换共享与专用组件的功能,可以令芯片根据任务的不同,来使用资源。
?另外,在年初的“推土机”芯片的预展介绍中,我们获得了更加详细的技术细节。
在Bulldozer模块中为起到提高核密度的目的,AMD把某些组件进行共享,而为了保持甚至是提高性能,把另外一部分保持分离。共享部分包括获取解码 并在浮点运算排成器、二级缓存方面共享,这样使得晶圆尺寸更小,从而容纳更多核。在整个架构中,为避免产生瓶颈,仍然维持整数预算调度器的独立性。
推土机的新功能——全核心加速技术
根据年初发布会中,AMD服务器产品市场总监John Fruehe先生介绍称:“Turbo Core主要是指对于一些没有完全消耗到最大程度的工作负载,去加快时钟速度。在多种不同工作负载上,使用了Turbo Core可以最大增加500兆赫兹的性能。最重要的一点,Turbo Core加速指的是所有核的加速,和有些核加速技术明显不同,以往的核加速技术可能需要关闭一些核,只对部分核进行加速。采用Turbo Core技术,最多可以使所有核增速500兆赫兹,如果再关闭一些核运转的情况下,加速将会超过500兆赫兹。同时我们还对内存控制器进行了进一步优化, 从而提高内存的吞吐量。8年前AMD首家推出集成内存控制器,根据AMD在这一领域的经验和非常好的技术,我们又在这一代产品中全面提升了内存控制器的性 能。首先我们对内存控制器在效率方面进行了针对性的重新设计和完善,因此实现30%的内存性能提升。在提升30%性能基础上,我们让内存支持1600兆, 所以可以获得额外20%的性能。两项加起来,可以实现内存控制器50%吞吐量提升。”
除了每个核心独享4个整数计算管线,在浮点运算上,“推土机”采用了“FlexFP”技术,两个核心共享一个浮点调度器和两个128位FMAC乘法累加器, 可以进行组合,每个时钟周期可以完成两次64位双精度计算或4次32位单精度计算。如果一个核心没有进行浮点运算,那么另一个核心可以占用这两个128位 的FMAC,在一个时钟周期完成4次双精度运算或8次单精度计算,AMD将其命名为 AVX模式。这种技术保证了“推土机”的浮点运算能力,在高性能计算中并不会因为“共享”而牺牲性能。