amd
先进的K6-3+出现之后。
oAMD于2001年10月推出了K8架构。尽管K8和K7采用了一样数目的浮点调度程序窗口(scheduling window ),但是整数单元从K7的18个扩充到了24个,此外,AMD将K7中的分支预测单元做了改进。global history counter buffer(用于记录CPU在某段时间内对数据的访问,称之为全历史计数缓冲器)比起Athlon来足足大了4倍,并在分支测错前流水线中可以容纳更多指令数,AMD在整数调度程序上的改进让K8的管线深度比Athlon多出2级。增加两级线管深度的目的在于提升K8的核心频率。在K8中,AMD增加了后备式转换缓冲,这是为了应对Opteron在服务器应用中的超大内存需求。
oAMD于2007下半年推出K10架构。
采用K10架构的 Barcelona为四核并有4.63亿晶体管。Barcelona是AMD第一款四核处理器,原生架构基于65nm工艺技术。和Intel Kentsfield四核不同的是,Barcelona并不是将两个双核封装在一起,而是真正的单芯片四核心。
● Barcelona新特性解析:引入全新SSE128技术
Barcelona中的一项重要改进是被AMD称为“SSE128”的技术,在K8架构中,处理器可以并行处理两个SSE指令,但是SSE执行单元一般只有64位带宽。对于128位的SSE操作,K8处理器需要将其作为两个64位指令对待。也就是说,当一个128位 SSE指令被取出后,首先需要将其解码为两个micro-ops,因此一个单指令还占用了额外的解码端口,降低了执行效率。
而Barcelona加宽了执行单元从64位到128位,所有128位的SSE操作不再需要进行解码分解为两个64位操作,并且浮点调度器也可以支持这种128位 SSE操作,提高了执行效率。
提高SSE指令执行单元带宽的同时,也会带来一些新的变化,也可以说是新的瓶颈:指令存取带宽。为了将并行处理器过程中解码数量最大化,Barcelona开始支持32字节每时钟周期的指令存取,而先前K8架构只支持16字节。32字节的指令存取带宽不仅对处理器SSE代码有帮助,同时对于整数指令也有效果。
● Barcelona新特性解析:内存控制器再度强化
当年当AMD将内存控制器集成至CPU内部时,我们看到了崭新而强大的K8构架。如今,Barcelona的内存控制器在设计上将又一次极大的改进其内存性能。
Intel Xeon服务器所有使用的FB-DIMM内存一大优势是,可以同时执行读和写命令到AMB,而在标准的DDR2内存中,你只能同时进行一个操作,而且读和写的切换会有非常大的损失。如果是一连串的随机混合执行的话,将会带来非常严重的资源浪费,而如果是先全部读然后再转换到写的话,就可以避免性能的损失。K8内存控制器就采用读取优先于写的策略来提高运行效率,但是Barcelona则更加智能化。
但是读取的数据会被先存放在buffer中,而不采用先直接执行写,但当它的容量达到了极限就会溢出,为了避免这种情况,在此之前才对读写之间进行切换,同时可以带来带宽和延迟方面效率的提高。K8核心配备的是128-bits宽度的单内存控制器,但是在Barcelona中,AMD把它分割成两个64-bit,每个控制器可以独立的进行操作,因此它可以带来效率上的不小提升,尤其是在四核执行的环境下,每个核心可以独立占有内存访问资源。
Barcelonas中集成的北桥部分(注意不是主板北桥)也被设计成更高的带宽,更深的buffers将允许更高的带宽利用率,同时北桥自身已经可以使用未来的内存技术,比如DDR3。
内存控制器的预取功能是运用相当广泛、十分重要的一项功能。预取可以减少内存延迟对整体性能的负面影响。当NVIDIA发布nForce2主板时,重点介绍的就是nForce2芯片组的128位智能预取功能。Intel在发布Core 2处理器之时也强调了CORE构架每核心拥有三个预取单元。
K8构架中每个核心设计有2个预取器,一个是指令预取器,另一个是数据预取器。K8L构架的Barcelona保持了2个的数量,但在性能上有了较大的改进。一个明显的改进是数据预取器直接将数据寄存入L1缓存中,相比K8构架中寄存入L2缓存的做法,新的数据预取器准确率更高,速度更快,内存性能及CPU整体性能将得益于此。
● Barcelona新特性解析:创新——三级缓存
受工艺技术方面的影响,AMD处理器的缓存容量一直都要落后于Intel,AMD自己也清楚自己无法在宝贵的die上加入更多的晶体管来实现大容量的缓存,但是勇于创新的AMD却找到了更好的办法——集成内存控制器。
处理器整合内存控制器可以说是一项杰作,拥有整合内存控制器的K8构架仅依靠512KB的L2缓存就能够击败当时的对手Pentium 4。直到现在的Athlon 64 X2也依然保持着Intel 2002年就已过时的512KB L2缓存。
现在Core 2已经拥有了4MB的L2缓存,看来Intel和AMD之间的缓存差距还将保持,因为Barcelona的L2缓存依然是512KB。相比之下,Intel四核的Kentsfield芯片拥有8MB的L2缓存,而2007年末上市的新型Penryn芯片将拥有12MB的L2缓存。
Barcelona的缓存体系和K8构架有一定的相似之处,它的四颗核心各拥有64KB的L1缓存和512KB的L2缓存。从简化芯片设计的角度来看,四核心共享巨大的L2缓存对K8L构架而言并不合适,所以AMD引入了L3缓存,得益于65nm工艺,Barcelona在一颗晶圆上集成四颗核心外,还集成了一块2MB容量的L3缓存。也就是说L3缓存与4颗内核同样原生于一块晶圆,其容量为最小2M起跳。同L2缓存一样,L3缓存也是独立的,L1缓存的数据和L3缓存的数据将不会重复。
Barcelona的缓存工作原理是:L2缓存是作为L1缓存的备用空间。L1缓存储存着CPU当前最需要的数据,而当空间不足时,一些不是最重要的数据就转移到L2缓存中。而当未来再次需要时,则从L2缓存中再次转移到L1缓存中。新加入的L3缓存延续了L2缓存的角色,四颗核心的L2缓存将溢出的数据暂时寄存在L3缓存中。
L1缓存和L2缓存依然分别是2路和16路,L3缓存则是32路。快速的32路L3缓存不仅可以更好的满足多任务并行,而且对单任务的执行也有着较大积极作用。尤其在3D运用方面,2MB的L3缓存将对性能产生极大的推进作用。
AMD全新45nm的Shanghai架构
2008年11月13日,AMD公司宣布其代号为“上海”的新一代45nm四核皓龙处理器已经广泛上市。“上海”性能最高提升达35%,而空载时的功耗可显著降低35%。新一代四核AMD皓龙处理器采用创新的设计,能够带来更高的虚拟化性能和每瓦性价比,帮助数据中心提高效率,降低复杂性,从而最大限度地满足IT管理者的需要,以更低的投入实现更高的产出。
AMD公司负责计算解决方案业务的高级副总裁Randy Allen表示:“新一代四核AMD皓龙处理器是在正确的时间诞生的一款正确的产品。堪称完美的提前推出,使之成为x86服务器性能的新王者。通过与OEM厂商和解决方案供应商等合作伙伴的紧密合作,AMD的创新技术在满足企业用户目前最基本需求的同时,还为其未来发展做好准备。自4年前AMD推出世界首款x86双核处理器以来,这一增强的新一代皓龙处理器带来了AMD产品性能和每瓦性价比的最大提升。”
领先的性能满足当今最迫切的商务需求
数据中心的管理者们面对日益增长的压力,诸如网络服务、数据库应用等的企业工作负载对计算的需求越来越高;而在当前的IT支出环境下,还要以更低的投入实现更高的产出。迅速增长的新计算技术如云计算和虚拟化等,在今年第二季度实现了60%的同比增长率3,这些技术在迅速应用的同时也迫切需要一个均衡的系统解决方案。最新的四核AMD皓龙处理器进一步增强了AMD独有的直连架构优势,能够为包括云计算和虚拟化在内的日渐扩大的异构计算环境提供具有出色稳定性和扩展性的解决方案。
卓越的虚拟化性能
具有改进的AMD直连架构和AMD虚拟化技术(AMD-V(TM)),45nm四核皓
上一篇:富士通P7230[ 06-02 ]
下一篇:方正R211(VUR211-445)[ 06-02 ]





