超线程技术的理性回归 Nehalem处理器拭目以待

晓黎 发表于:08年06月23日 13:48 [原创] 服务器在线

  • 分享:
[导读]去年底英特尔首款采用post-Conroe体系架构的四核处理器Penryn面世。Penryn的出炉是Conroe处理器的完美升级,进一步的降低了能量消耗,性能上也有所提升。

服务器在线6月23日报道 去年底英特尔首款采用post-Conroe体系架构的四核处理器Penryn面世。Penryn的出炉是Conroe处理器的完美升级,进一步的降低了能量消耗,性能上也有所提升。继它上市之初就震撼了整个计算机行业。

Nehalem处理器和Penryn处理器一样是采用45纳米制程工艺的全新体系架构。是继Core 2的成功发布后的一次完美演绎。英特尔公司在推出新款处理器前之前的半年时间里,就将消息告知他们的合作伙伴来为新款芯片开发主板做好准备。英特尔的Northwood, Prescott, Conroe, Penryn和目前的Nehalem一系列的处理器都是这么做的。值此首个Core 2预览推出两周年之际,您是否对Nehalem处理器预览充满期待呢?

插槽

英特尔的Nehalem处理器不仅有集成内存控制器,而且是首款具有3个64位DDR3内存信道和1366针LGA接口的版本:

左图为LGA-1366,右图为LGA-775

插槽由于散热器所占面积的原因尺寸明显比LGA-775要大。用户无法重复使用LGA-775的散热器,必须用带有安装孔的散热器代替。我们的看法是LGA-775上的推针机械装置安装在Nehalem处理器上是不合适的。

有了尺寸更大的插槽和更多的针脚,中央处理器自身的尺寸显然也增大了。以下是Nehalem处理器与Core 2 Duo E8500的对比:

左图为Nehalem,右图为Penryn

显然英特尔计划在将来能推出4信道的Nehalem处理器,但不幸的是他们似乎会在主流版本的处理器上使用尺寸更小的插槽。有可能英特尔将选择在桌面系统市场上主打单路系统,为Skulltrail处理器这样的高端产品保留LGA-1366,但具体战略尚不清楚。

超线程的回归

Nehalem处理器的设计最高可扩展到每个芯片上8个核心,每个核心都能同时执行2个线程--不错,这就是超线程的回归。因此我们的四核Nehalem处理器在Windows Vista操作系统下就以8个逻辑核心的面目出现了:

值得注意的是和之前的超线程执行一样,这不是执行资源的翻倍,只是简单的允许两条指令线程同时沿着他们的传递途径来更好的利用闲置的执行单元。8个物理核心的执行速度显然能够更快,但是8个逻辑核心(即4个物理核心)也是提高性能和功效的好办法。

我们对基准的1个实例和2个实例的编译时间进行了测算。以下的图标显示了工作负载翻倍的情况下编译时间的增长变化:

主频速度为2.66GHz的Core 2 Quad Q9450(Penryn)处理器在执行双倍工作负载时所花费的时间为127秒,而主频为2.66GHz的Nehalem处理器则只需49秒就能完成。2.66GHz的四核Nehalem处理器性能是主频为3.2GHz的8核Skulltrail处理器的20%,但我们敢保证四核Nehalem处理器的同等时钟频率与8核Skulltrail处理器是一样的。真实性能参数如下:

QuickPath总线技术

Nehalem体系架构最明显的变化在于内存子系统。Nehalem处理器采用分级存储器体系,每个核心都由小型快速的独立L1和L2高速缓存组成,整个处理器共享一个单独的L3高速缓冲存储器。

Nehalem处理器的L1高速缓存尽管表面上看与Penryn处理器并没有什么不同,但在延迟上有所改进;现在每个核心只有256K的L2高速缓存,因此只需要11个循环周期就能完成高速缓存的访问(Penryn处理器与Conroe相比在访问L2高速缓存时增加了额外的时钟周期) 。

2.66GHz的L3高速缓存让人印象非常深刻,只需39个循环周期就能完成访问。L3高速缓存的内存容量达到8M,尺寸是Phenom处理器的L3高速缓存的4倍,访问速度也更快。在我们的测试中Phenom的L3高速缓存用了大概43个循环周期完成内存访问,但是主频速度却比Nehalem处理器要低,为2.0GHz。

英特尔公司在Nehalem处理器的高速缓存上做了很多努力,诸如多信道的on-die DDR3内存控制器就是最明显的变化。AMD自2003年以来就在它的K8微处理器上开始采用集成内存控制器,而英特尔公司多年来一直拒绝采用同样的做法。

随着主频速度的不断提升,内存之间的差距在逐渐缩小。我们可以看到Nehalem处理器的设计就是淡化了独立中央处理器核心和高速主存之间的不同,

2.66GHz系统的主板需要内存带宽和延迟数据的支持,这些数据有时候会比较离谱。幸好我们还有主频为2.93GHz的系统平台能进行测试。我们采用Everest Ultimate 4.50来采集Nehalem处理器的内存带宽和延迟数据。

值得注意的是这些数字取自DDR3-1066(在Core 2系统上的双信道和Nehalem处理器的3信道):

Nehalem处理器需要Penryn处理器2/3的时间完成内存请求,虽然我们没有时间来对Phenom处理器的读取数据进行比较,但我相信Nehalem处理器的DDR3内存控制器比Phenom的DDR2控制器速度要快。3个DDR3信道的内存带宽显然也更大,测算带宽提高了7%。目前我们还没有内存带宽的具体数字。

英特尔设法改进高速缓存的结构并引进内存控制器,尽管四年前AMD公司就已经开始采用这种架构,但英特尔无疑在这两面取得了显著的进步。

能耗

Nehalem处理器像Penryn一样采用的是45纳米制程工艺,我们预测Nehalem处理器的能耗比Penryn要高,如果英特尔公司的目标是每个微体系架构性能提升1%,而能耗不超过1%的话,这个结论也是可能的:即性能如果提升20-50%,系统能耗总量上升10%。

结论

我们预测Nehalem处理器的整体性能将比Penryn处理器提升20-30%,看起来英特尔也是按照这种既定轨道在实施的。主频速度为2.66GHz的Nehalem处理器速度已经超过了目前市场上速度最快的3.2GHz Penryn处理器。这些基准性能参数都是在早期的系统平台上完成的,而Nehalem处理器要到今年第四季度才会正式推出。

另外值得一提的是这些测试中没有一项是真正以Nehalem处理器的集成内存控制器为重点的。当AMD公司已经着手从IMC转移时,我们看到多数应用软件的性能都立即提升了20%。笔者猜想无法从超线程中受益的应用软件至少也能从IMC受益。在此我们只能对Nehalem 处理器的性能做浅尝辄止的分析,对超线程和低延迟的优势拭目以待。

6年前笔者在与英特尔首席信息官帕特.基辛格谈及这个问题时,基辛格曾经表示线程是他们关注的重点。英特尔也在应用超线程技术,基辛格认为这对于未来的微处理器是非常必要的。

[责任编辑:DOIT]
DOIT
IBM IGF作为全球最大的IT融资解决方案提供商,拥有近360亿美元的资产,目前在全球55个国家和地区开展业务,客户数超过12.5万家,在全球《财富》100强中有超过75%的企业是IBM全球融资部的客户。IBM全球融资部目前分为硬件、软件、技术服务、咨询服务、融资服务5个部门,能为客户提供端到端的IT融资解决方案,并以此促进IBM在全球范围的业务发展。
官方微信
weixin
精彩专题更多
联想发布“腾云计划”正式进入云市场,同时推出ThinkServer Gen5,在众说纷“云”的云时代里联想推出云战略正当其时,服务器产品线的更新便是联想云时代里前行的新生力量。
2014年11月6号,HPC China 2014大会在广州长隆酒店正式召开。本次会议由中国计算机学会主板,中国计算机学会高性能计算专业委员会、中山大学和广东工业大学承办。
思科UCS:突破性能极限 重新定义平台
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.