【IT168评测中心】2005年10月10日英特尔正式发布了其第一款双核心Xeon处理器Dual-Core Xeon 2.8GHz,虽然只有一款,而且似乎是紧急从用于Xeon MP(Paxville)处理器“借调”过来的,但是毕竟帮助英特尔从“无双”的尴尬境地走了出来。
今年的3月份,英特尔发布了代号为“Sossaman”的低电压版双核Xeon LV服务器处理器,包括2.0GHz和1.66Ghz两款。这是自从Netburst微架构应用到Xeon处理器以来,第一款非Netburst微架构的产品,它的TDP只有31瓦,是英特尔将类Core微架构在Xeon系列处理器上的初步尝试。
5月23日英特尔公司在发布“Bensley”平台的同时,一口气发布了Xeon 5080、Xeon 5070、Xeon 5060、Xeon 5063、Xeon 5050、Xeon 5040、Xeon 5030和Xeon 5020等8款处理器,这些代号为Dempsey的双核Xeon DP处理器均配置了4MB L2缓存,其中每个核心独享2MB L2缓存。这也是Netburst微架构最后一次应用在Xeon DP处理器。
![]() |
Woodcrest |
6月26日,距离发布Dempsey仅仅一个月的时间,英特尔又发布了代号为Woodcrest的Xeon 5100系列双核处理器,这款处理器采用了Core微架构,不但具有出色的性能,还具有极低的功耗,彻底的扭转了双核双路处理器市场的竞争形式。
![]() |
11月14日,英特尔在继发布桌面四核处理器之后发布了代号为Clovertown的Xeon 5300系列处理器。英特尔在短短的8个月中,针对单一产品线(双路服务器)发布了近16款处理器产品,可以说是前所未见的。也正是通过这种密集的、快速的产品发布方式,使得英特尔一下从没有双核产品的不利境地,重新的回到了业界领导者的位置上。
为“核”而来,Xeon 5300系列处理器解析
![]() |
去掉IHS的Clovertown |
Quad-core Xeon 5300系列处理器是定位于双路服务器/工作站应用的处理器,代号为Clovertown,它的实现方式同代号为“SmithField”的Pentium D处理器相似,把两个DIE封装在一起,每个DIE包括两个Core微架构的核心。虽然AMD又跳出来指责这样的四核不是“真四核”,只有将四个核心集成在一个芯片内才是“真四核”,然而AMD的“Barcelona”要等到明年第二季度才能推出。在这个期间,英特尔的四核Xeon DP处理器将会享受一段没有竞争的安逸生活。
型号 | X5355 | E5345 | E5335 | E5320 | E5310 |
制程 | 65纳米 | 65纳米 | 65纳米 | 65纳米 | 65纳米 |
L2缓存 | 8MB | 8MB | 8MB | 8MB | 8MB |
主频 | 2.66GHz | 2.33GHz | 2.00GHz | 1.86GHz | 1.60GHz |
前端总线 | 1333MHz | 1333MHz | 1333MHz | 1066MHz | 1066MHz |
系统类型 | DP | DP | DP | DP | DP |
其它Intel技术 | Execute Disable Bit, DBS, Intel Virtualization Technology, Intel 64, QC | Execute Disable Bit, DBS, Intel Virtualization Technology, Intel 64, QC | Execute Disable Bit, Intel Virtualization Technology, Intel 64, QC | Execute Disable Bit, DBS, Intel Virtualization Technology, Intel 64, QC | Execute Disable Bit, DBS, Intel Virtualization Technology, Intel 64, QC |
封装 | FC-LGA6 | FC-LGA6 | FC-LGA6 | FC-LGA6 | FC-LGA6 |
服务器芯片组 | Intel 5000P, Intel 5000V | Intel 5000P, Intel 5000V | Intel 5000P, Intel 5000V | Intel 5000P, Intel 5000V | Intel 5000P, Intel 5000V |
工作站芯片组 | - | - | Intel 5000X | - | - |
sSpec Number | SL9YM | SL9YL | SL9YK | SL9MV | SL9XR |
功率 | 120W | 80W | 80W | 80W | 80W |
英特尔此次发布了5款处理器X5355、E5345、E5335、E5320和E5310,它们均采用了65纳米制程和-LGA6封装(LGA771),配置了8MB L2缓存,主频分别为2.66GHz、2.33GHz、2.00GHz、1.86GHz、1.6GHz,其中前三款(型号最后一位是“5”)的FSB频率为1333MHz,传输带宽可达10.6GB/s,后两款(型号最后一位是“0”)的FSB频率为1066MHz,传输带宽可达8.5GB/s。
英特尔Blackford系列芯片组提供了双独立总线(DIB)结构,因此总共可以提供21GB/s或者17GB/s的传输带宽。可直接在这个平台上运行Xeon 5300处理器是四核处理器优势之一,但是带来的问题也是很明显的,那就是原来4个核心分享的前端总线带宽现在将由8个核心来争抢了。
除了E5335处理器之外,其它的4款处理器均支持EDbit、DBS、VT、Intel64、QC技术,而在英特尔提供的资料中显示E5335并不支持DBS,而且在支持芯片组中,这款处理器明确的标明可用于Intel 5000X工作站芯片组,而其它的则仅标明可用于5000P和5000V芯片组。
四核Xeon 5300系列的功率提升到了一个新的水平,X5355处理器功率为120瓦,而其它的四款均为80瓦。之前发布的双核Xeon 5100系列处理器中,Xeon 5160功率为80瓦,Xeon 5148 LV功率为40瓦,其余的均为65瓦。从英特尔公布的这些数据来看,虽然四核处理器是两颗双核处理器的“简单整合”,但是其功率并非两个双核处理器的功率之和。从散热的角度来看,如果服务器厂商在设计双路Xeon 5100服务器的时候,能够确保Xeon 5160处理器(80瓦)的散热需求,那么平滑升级到E5300系列处理器也是没有问题的。
![]() |
上图显示的是宝德PR1510D四核服务器中所配置的Xeon 5320处理器的基本信息:Intel Xeon 5320处理器,主频为1.86GHz,前端总线频率为1066MHz,每个核心配置有32KB L1数据缓存,32KB L1代码缓存,每个DIE则整合有4MB L2缓存(也就是两个核心共享4MB L2缓存),整个处理器总共具有8MB L2缓存。
总的来说,Xeon 5100所有的特性,Xeon 5300全都具有,最大的改变无非是核心的数量从2个增加到了4个。那么对于服务器应用而言,这是否是我们所需要的产品呢?
借助于Netburst微架构,英特尔一直在引导用户乃至整个行业只是关注处理器频率,即便是在并行应用为较多的服务器领域也是如此。然后,随着主频的提升、处理器集成度的提高,基于Netburst微架构的处理器的功耗已经普遍提升到100瓦以上(特别是双核Xeon 7100处理器的功耗已经达到了150瓦),而实际应用中的性能提升却远没有功耗提升的那么显著。
而Sun在2003年开始倡导的高吞吐量计算 (Throughput Computing) 理念则是另外一个方向。Sun认为过去的几十年中,处理器速度的提升依然神奇的遵循着摩尔定律,但是内存速度却是每6年提升2倍。网络的普及也使得更多的计算任务是通过网络进行的,它的速度同样也远远低于处理器的速度。网络应用的效能更多的依赖计算单元整体吞吐量的执行,而非单个线程。
英特尔的超线程技术可以说是对于这种理念的初步认可,它能明显的提升处理器资源的利用率。从单核到双核,从双核到四核,走的依然是这样的道路,唯一不同的是英特尔这次并没有拿出一个炫目的概念或者名词。
四核心的处理器并非英特尔首创,去年Sun公司就推出了面向2-32路服务器的4核心32线程UltraSPARC T1处理器,IBM的Power 5/Power +也可以采用QCM或者MCM封装实现多核,市场定位均较高。而英特尔Xeon 5300处理器是第一款定位于主流双路服务器应用的产品,它可以轻松的让现有的基于Bensley平台的双路服务器的计算密度倍增。根据英特尔公布的测试数据来看,Xeon 5355处理器相对于Xeon 5160处理器性能提升在60%左右,而我们对于同频率的Xeon 5320和Xeon 5120处理器的测试来看,很多应用中四核处理器的性能等于甚至大于同频的双路双核处理器的性能。这样一来,本来需要10台双核服务器完成的工作量,可能需要5-6台四核服务器就可以了。这将大大的降低运维成本(比如只是需要维护一半数量的服务器、占用更小空间、散热成本和电费也会降低)。
去年开始,虚拟化的概念开始被英特尔全面的推广,即便是对于个人用户没有多大用处的PC平台上也有这个概念。实际上,虚拟化应用是一个对于性能要求相当高的解决方案,由于它把更多的应用整合在一个硬件平台上,因此对于可靠性要求的更高。四核Xeon的出现使得,即便是1U服务器也具有了较高的可供多个虚拟化使用的计算资源,虚拟化在这个层面的产品上推广就更加实际了。
宝德率先推出四核服务器
在英特尔发布四核处理器的同时,宝德一举推出14款四核服务器新品,并且其中的PR1510D很快的就抵达了我们IT168评测中心,而此时国内其它厂商还无法提供让我们测试的四核服务器样机。
![]() |
我们这次收到的宝德PR1510D四核服务器和之前我们测试过的PR1510D双核服务器完全一样。
![]() |
宝德PR1510D服务器外观尺寸为43.25mm x 430mm x 675mm,前面板布局较为紧凑,提供了3个3.5英寸硬盘扩展位(送测样机配置了一颗MAXTOR ATLAS 10K V 73GB硬盘),如果配合支持RAID5功能的磁盘控制卡,能够组建可靠的磁盘子系统了。宝德PR1510D服务器还预装了超薄CD-ROM驱动器,未安装软驱,但是随机提供了一个USB软驱。
前面板的右侧部分是服务器的主要控制按键和指示灯,主要包括:电源/休眠按钮、复位按钮、ID指示灯按钮、电源/休眠指示灯、系统状态指示灯、硬盘活动指示灯、两个网卡状态指示灯、ID指示灯。另外,前面板上还提供了2个前置USB端口,不过没有提供前置VGA端口——毕竟1U服务器的前面板空间有限。
宝德PR1510D服务器内部则采用了Intel S5000VSA主板,这款主板采用了Intel 5000V(Blackford-VS)芯片组,它相对于5000P芯片组只是在内存控制器上规格有所区别。
![]() |
宝德PR1510D服务器配置了ETASIS EFAP-601 600W服务器单电源,同PR1310D所采用的电源相同,这款电源的+5V和+3.3V输出电流均可达20A,4路+12V输出总电流可达47A,从容量上可以满足这款服务器今后扩展更多配件的需求。
在后面板上提供了1个PS/2鼠标接口、1个PS/2键盘接口、1个串口、1个VGA接口、2个千兆网卡接口和4个USB 2.0接口。从上图可以看出,虽然这是一款1U服务器,但是也可以安装一个全高全高扩展卡,大大提高了服务器在扩展功能时选择配件的灵活性。
![]() |
宝德PR1510D服务器前1/4的空间主要是存储设备,包括3个热插拔硬盘位和一个超薄光驱,后3/4的空间是主板和电源。
![]() |
在散热设计上,宝德PR1510D服务器也是完全一样的,它的散热系统的主要组成部分是5组9个风扇,其中最左边的一个用于给PCI类设备散热,另外8个系统风扇两两为一组,产生的气流经由导风罩的引导,依次为处理器和FB-DIMM内存散热。从上图可以看出,其系统风扇两两一组串联,但是使用了独立的供电,具有一定的冗余能力。
![]() |
送测样机配置了一颗Xeon 5320处理器(主频为1.86GHz、4MBx2 L2缓存、1066MHz FSB)。这款服务器提供了8条FB-DIMM内存插槽,可以提供最大16GB的内存容量,可配置为双通道模式。
![]() |
宝德PR1510D服务器所采用的S5000VSA主板具有不错的扩展能力,其提供了2条PCI-E x4插槽、1条PCI-X 64bit/100MHz插槽、1条PCI-X 64bit/133MHz插槽和1条PCI 32bit/33MHz插槽。由于受到服务器机箱空间的限制,实际使用中用户充分利用这些扩展槽机会不大,比如当安装了一张全高全长扩展卡之后,至少有一条PCI-X插槽和一条PCI-E插槽无法同时使用了。
![]() |
S5000VSA主板板载了LSI LOGIC LSISAS1064E控制器芯片,它最多可提供4个3 Gb/s串行SCSI端口,这款芯片通过PCI-Express 8x总线同芯片组通讯。正是这颗芯片的存在,使得宝德PR1510D服务器可以支持更先进的SAS接口的存储设备。
测试平台和测试方法
宝德PR1510D四核心服务器配置 | |
主板 |
Intel S5000VSA |
芯片组 |
Intel 5000V |
驱动程序 |
INF 8.1.1.1001 |
处理器 |
Intel Xeon 5320 x1(Woodcrest) |
主频 |
1.86GHz |
FSB |
1066MHz |
L2容量 |
4MB(共享) |
处理器设置 |
XDbit Disable |
内存 |
Ramaxel 1GB 2Rx8 PC2-4200R-444 |
SPD | 266MHz 4-4-4-12 |
总容量 | 1GB x 4 |
配置 | 4通道 Interleave |
磁盘控制器 |
板载LSILogic 53C1064E SAS控制器 |
硬盘 |
MAXTOR ATLAS 10K V(73GB SAS) x 1 |
驱动程序 |
V1.21.15 |
磁盘设置 |
1块硬盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区上进行 |
操作系统 |
Microsoft Windows 2003 Enterprise Server R2 5.02.3790 (Service Pack 1) |
网卡 |
Intel PRO/1000 EB Network Connection with I/O Acceleration |
驱动程序 |
9.3.39.0(4/3/2006) |
我们在上述配置的服务器上分别安装了Microsoft Windows 2003 Enterprise Server R2 5.02.3790 (Service Pack 1),正确安装了各个硬件的驱动程序,确保服务器工作在最佳的状态。
我们所使用的评测项目如下:
-
SPECCPU2000 v1.2
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU2000是SPEC组织推出的一套CPU子系统评估软件,它包括CINT2000和CFP2000两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能。计算系统中的处理器、内存和编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler这两款SPEC CPU2000必需的编译器,另外安装了Microsoft Visual Studio 2003.net提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,可以满足Base测试。然后我们根据被测系统实际可同时处理的线程数量,设定用户数量,分别运行SPEC base和SPEC rate base测试的结果(其中SPEC base代表系统执行某个任务的速度,而SPEC base rate测试代表系统可以同时处理任务的能力)。
-
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
-
IOMeter 2004.7.30
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
-
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
-
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
-
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
-
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
-
SiSoftware.Sandra.SP1 v2007
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。今年该软件推出了2007版,该版本新增了4项基准测试,包括Power Management Efficiency、Memory Latency、Physical Disks和CD-ROM and DVD这四个项目。另外,它还对于原有的几个基准测试模块进行升级,比如在Arithmetic benchmarks中增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
-
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
-
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
-
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
-
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
主板 |
Supermicro X7DB3 |
芯片组 |
Intel 5000P |
驱动程序 |
INF 7.3.1.1013 |
处理器 |
Intel Xeon 5120 x2 |
主频 |
1.86GHz |
FSB |
1066MHz |
L2容量 |
4MB(共享) |
处理器设置 |
XDbit Disable |
内存 |
Ramaxel 1GB 2Rx8 PC2-4200R-444 x4 FB-DIMM |
配置 | 4通道 Interleaving开启 |
磁盘控制器 |
LSI Logic MegaRAID SAS 8308ELP扩展卡 |
硬盘 |
Maxtor ATLAS 10k V 147GB SAS x3 |
驱动程序 |
1.17.0.32(2/3/2006) |
磁盘设置 |
三块硬盘组建为RAID 5模式,条带大小为64KB,Read=Normal,Write=BadBBU。 |
操作系统 |
Microsoft Windows Server2003,5.02.3790,SP1 |
网卡 |
Intel PRO/1000 EB Network Connection with I/O Acceleration |
驱动程序 |
9.3.39.0(4/3/2006) |
对比平台:单路Intel Xeon 5120平台 | |
主板 |
ASUS DSBF-D/SAS |
芯片组 |
Intel 5000P |
驱动程序 |
INF 8.1.1006 |
处理器 |
Intel Xeon 5120 x1 |
主频 |
1.86GHz |
FSB |
1066MHz |
L2容量 |
4MB(共享) |
处理器设置 |
XDbit Disable |
内存 |
Ramaxel 1GB 2Rx8 PC2-4200R-444 x4 FB-DIMM |
配置 | 4通道 Interleaving开启 |
磁盘控制器 |
Adaptec ASR-2130SLP SCSI RAID卡 |
硬盘 |
Seagate Cheetah 10k.7 ST373207LW x 3 |
驱动程序 |
5.1.0.9114(03/27/2006) |
磁盘设置 |
三块硬盘组建为RAID 5模式,条带大小为64KB,磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区上进行 |
操作系统 |
Microsoft Windows Server2003,5.02.3790,SP1 |
网卡 |
Intel PRO/1000 EB Network Connection with I/O Acceleration |
驱动程序 |
9.3.39.0(4/3/2006) |
我们最想要知道的是四核Xeon 5300处理器的性能究竟是怎样的,是否能同双路双核Xeon 5100具有相当的性能?为此,我们分别选用了两个对比平台的测试测试结果,一个是采用了两颗Xeon 5120处理器的服务器,一个是采用了一颗Xeon 5120处理器的服务器。需要提醒读者注意的是,这两个对比平台的内存容量均为4GB,而宝德四核服务器PR1510D仅配置了2GB内存。此外,两个对比平台均采用了独立的RAID卡,而宝德四核服务器采用的是板载SAS控制器,因此实际上会消耗更多的处理器资源。这次的测试对于四核处理器并不“完全公平”。
处理器性能测试
整数性能测试中包括11个C程序和1个C++程序(252.eon),它们分别代表数据压缩(164、256)、电路布线(175)、C编译器(176)、 最低成本网络流解算机(181)、象棋模拟程序(186)、自然语言处理(197)、光线追踪(252)、Perl应用(253)、计算机群论(254)、面向对象的数据库应用(255)等应用。
浮点性能测试中包含了14个程序,分别代表量子色动力学(168)、浅水模型(171)、3D势场多栅格解算器(172)、抛物/椭圆偏微分方程(173)、3D图形库(177)、流体动力学(178)、神经元网络(179)、有限元模拟:地震模型(183)、面部识别(187)、计算化学(188)、数论(189)、有限元模拟:碰撞(191)、粒子加速器(200)、污染物扩散(301)。
SPECint rate_base2000 | |||
---|---|---|---|
Xeon5320 x 1 | Xeon5120 x 2 | Xeon5120 x 1 | |
开启线程数量 | 4 | 4 | 2 |
164.gzip | 51.9 | 52.2 | 26.3 |
175.vpr | 52.1 | 50.6 | 27.3 |
176.gcc | 84.0 | 85.0 | 43.0 |
181.mcf | 34.4 | 45.5 | 26.6 |
186.crafty | 56.6 | 55.8 | 27.9 |
197.parser | 60.6 | 62.4 | 32.1 |
252.eon | 85.5 | 85.7 | 42.8 |
253.perlbmk | 86.1 | 86.3 | 43.4 |
254.gap | 59.7 | 69.0 | 35.7 |
255.vortex | 113.0 | 115.0 | 58.8 |
256.bzip2 | 53.3 | 52.9 | 27.4 |
300.twolf | 89.2 | 88.1 | 44.2 |
总分 | 65.6 | 68.0 | 35.1 |
SPECfp rate_base2000 | |||
---|---|---|---|
Xeon5320 x 1 | Xeon5120 x 2 | Xeon5120 x 1 | |
开启线程数量 | 4 | 4 | 2 |
168.wupwise | 46.1 | 69.4 | 27.8 |
171.swim | 26.2 | 37.9 | 22.9 |
172.mgrid | 24.3 | 34.8 | 18.1 |
173.applu | 20.9 | 37.2 | 17.4 |
177.mesa | 47.8 | 81.5 | 24.6 |
178.galgel | 83.7 | 151.0 | 44.3 |
179.art | 86.6 | 113.0 | 59.0 |
183.equake | 25.9 | 33.4 | 21.7 |
187.facerec | 50.4 | 64.4 | 28.3 |
188.ammp | 48.3 | 50.8 | 23.7 |
189.lucas | 27.3 | 37.8 | 21.8 |
191.fma3d | 31.0 | 41.5 | 19.5 |
200.sixtrack | 21.9 | 33.5 | 11.0 |
301.apsi | 38.9 | 46.6 | 22.1 |
总分 |
37.2 | 52.7 | 23.9 |
SPECint_rate_base测试结果显示,单路四核系统(Xeon 5320)并行处理任务的吞吐量接近于双路双核系统(Xeon 5120 x 2),后者的性能接近于单路双核系统(Xeon 5120 x 1)的两倍。仔细对于单路四核系统和双路双核系统测试子项目,我们发现最低成本网络流解算机(181.mcf)、计算机群论(254.gap)两个项目的差距较大,这两个项目会受到前端总线宽度和内存配置的影响,这些正是这两个系统的主要差异。
SPECfp_rate_base测试结果显示,单路四核系统的浮点吞吐量明显的低于双路双核系统的浮点吞吐量,但是明显高于单路双核系统。我们推测前端总线依然是问题的所在,单路四核只能利用一条1066MHz FSB——此时的性能略高于之前我们测试过的双路双核Paxville DP系统的性能,这个系统只有一条800MHz FSB。
SiSoftware.Sandra.Enterprise.v2007 Sp1 | |||
Xeon5320 x 1 | Xeon5120 x 2 | Xeon5120 x 1 | |
Processor Arithmetic | |||
Dhrystone ALU(MIPS) | 34276 | 34567 | 17170 |
Whetstone iSSE3(MFLOPS) | 23649 | 23112 | 11923 |
Processor Multi-Media | |||
Integer x8 iSSE4(it/s) | 204391 | 205123 | 102655 |
Floating-Point x4(it/s) | 110788 | 111132 | 55574 |
Sisoftware Sandra 2007处理器测试项目更加注重处理器本身,受到周围环境的影响较小,结果比较理想化。从上面的表格来看,单路四核和双路双核的测试结果几乎一样,它们均是单路双核系统的2倍。
缓存内存性能测试
ScienceMark Membench | |||
Xeon5320 x 1 | Xeon5120 x 2 | Xeon5120 x 1 | |
L1带宽 | 52221.47 | 52358.39 | 52355.24 |
L2带宽 | 15632.97 | 15683.28 | 15459.64 |
内存带宽(MB/s) |
2997.12 | 2918.25 | 2951.25 |
L1 Cache Latency (ns) | |||
32 Bytes Stride |
1.60 | 1.61 | 1.61 |
L2 Cache Latency(ns) | |||
4 Bytes Stride |
1.60 | 1.61 | 1.61 |
16 Bytes Stride |
2.15 | 2.14 | 2.14 |
64 Bytes Stride |
6.44 | 5.89 | 5.89 |
256 Bytes Stride |
5.91 | 6.43 | 6.43 |
512 Bytes Stride |
6.44 | 6.43 | 6.43 |
Memory Latency(ns) | |||
4 Bytes Stride |
1.61 | 1.61 | 1.61 |
16 Bytes Stride |
2.15 | 2.14 | 2.14 |
64 Bytes Stride |
6.44 | 6.96 | 6.43 |
256 Bytes Stride |
6.98 | 7.50 | 7.50 |
512 Bytes Stride |
7.52 | 8.04 | 8.04 |
Algorithm Bandwidth(MB/s) | |||
Compiler |
2171.46 | 2068.71 | 2040.59 |
REP MOVSD |
2161.72 | 2086.70 | 2075.62 |
ALU Reg Copy |
2007.25 | 2019.78 | 1997.65 |
MMX Reg Copy |
2055.8 | 2046.38 | 2019.38 |
MMX Reg 3dNow |
- | - | - |
MMX Reg SSE |
2926.54 | 2906.74 | 2916.17 |
SSE PAlign |
2910.06 | 2897.37 | 2932.08 |
SSE PAlign SSE |
2997.12 | 2918.25 | 2944.82 |
SSE2 PAlign |
2964.91 | 2888.73 | 2919.79 |
SSE2 PAlign SSE |
2989.18 | 2917.67 | 2951.25 |
MMX Block 4kb |
2410.77 | 2460.69 | 2512.00 |
MMX Block 16kb |
2610.58 | 2663.69 | 2708.04 |
SSE Block 4kb |
2297.21 | 2452.03 | 2486.21 |
SSE Block 16kb |
2631.15 | 2668.89 | 2721.50 |
ScienceMark v2.0 Membench测试仅局限于单个处理器(但是ScienceMark v2.0是可识别并且支持多个处理器的),多个处理器、前端总线结构对于测试结果影响都不大。
SiSoftware.Sandra.Enterprise.SP1 v2007 | |||
Xeon5320 x 1 | Xeon5120 x 2 | Xeon5120 x 1 | |
Memory Bandwidth | |||
RAM IntBuff iSSE2(MB/s) | 2773 | 4259 | 2830 |
Assignment | 2696 | 4265 | 2780 |
Scaling | 2694 | 4262 | 2778 |
Addition | 2866 | 4256 | 2893 |
Triad | 2838 | 4253 | 2869 |
RAM FloatBuff iSSE2(MB/s) | 2774 | 4257 | 2829 |
Assignment | 2710 | 4265 | 2784 |
Scaling | 2698 | 4265 | 2782 |
Addition | 2854 | 4250 | 2881 |
Triad | 2835 | 4251 | 2869 |
![]() |
SiSoftware Sandra Memory Bandwidth测试会受到前端总线结构的影响,如上表格所示单路四核系统和单路双核系统的内存带宽相似,几乎都是双路双核平台的一半。
Cache and Memory测试结果显示,当测试数据块小于4MB时,单路四核系统和双路双核系统的测试曲线完美的重合在一起,并且它们的带宽基本上是单路双核系统的2倍。
磁盘性能测试
宝德PR1510D服务器的磁盘子系统有板载LSILogic 53C1064E SAS控制器和1块AXTOR ATLAS 10K V SAS硬盘组成。由于不同服务器可以比较灵活的选配不同的磁盘子系统,这个环节没有进行对比。
![]() |
![]() |
从测试曲线来看,板载LSI 53C1064 SAS控制器和1块AXTOR ATLAS 10K V SAS硬盘组成的磁盘子系统的性能比较普通,其最高读取IO处理能力均接近于20000 IOps多一点,写入IO处理能力均低于3000 IOps。该磁盘子系统的读取吞吐量比较理想,达到了75MB/s,写入吞吐量在队列深度超过16之后也达到了67MB/s以上。。
文件服务器性能测试
![]() |
![]() |
宝德PR1510D服务器采用了Intel PRO/1000 EB Network Connection with I/O Acceleration网卡,该网卡是由ESB6321芯片和板载双Intel 82563EB双端口PHY芯片共同组成的。测试结果显示其吞吐量在895-901Mbps之间,性能不错。
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,测试结果显示其吞吐量最高可以达到295Mbps,这也达到了板载磁盘控制器和单颗SAS硬盘组成的磁盘系统的平均水平。
Web服务器性能测试
Web服务器测试分为静态应用测试和动态应用测试,IO能力对于静态应用的性能有明显的影响,而处理器计算能力、缓存内存效能则对于动态应用的性能有明显影响。
![]() |
![]() |
在这个环节,我们仅仅对比了单路四核平台和双路双核平台。两者静态响应测试曲线基本相同。动态响应测试则是单路四核占据优势,它的峰值为7089 Requests Per Second,而双路双核峰值为6829 Requests Per Second。
数据库服务器性能测试
我们在被测服务器上安装了Microsoft SQL 2000 SP4,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟800个用户,并且以8个一组依次增加,在这个数据库中进行查询、添加、删除、修改等操作。在测试期间,数据的吞吐量很小,因此磁盘吞吐量和网络吞吐量都不会成为瓶颈。
![]() |
由于我们没有测试单路Xeon 5120的配置SQL性能,因此这个环节我们使用了基于单路Xeon 5110处理器的宝德PR1510D服务器的测试结果。从以上的曲线来看,单路双核平台平均处理能力在24000 TPS左右,而单路四核平台的平均处理器能力在39000 TPS左右,四核平台是双核平台的1.6倍。
我们的双路双核平台的测试曲线同单路四核的测试曲线的走势差异很大,具体的原因我们尚未找到。因此如果对比峰值处理能力的话,双路双核平台的性能几乎是单路四核的2倍,而对比平均处理能力的话,双路双核平台的性能是单路四核平台的1.2倍。四核平台虽然没有取得以一抵二的成绩,但是其表现也相当的不俗了。
服务器整体功耗
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
-
P1:连接电源但不开机状态
-
P2:系统启动完毕,5分钟内无动作,但不休眠
-
P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作
![]() |
我们分别对于配置一颗Xeon 5320四核处理器和配置了一颗Xeon 5110双核处理器的宝德PR1510D服务器进行了测试,除了处理器配置不同,其它的配置均完全相同,比如都配置了2条1GB FB-DIMM 533MHz内存、1块MAXTOR ATLAS 10K V硬盘,9个系统风扇。
宝德PR1510D四核服务器该系统在接通电源但是不启动的状态下,其功耗约为6瓦,同双核配置基本一样。进入系统之后长时间无动作(不启用节电模式),两个系统的功耗差别只有3瓦。处理器满载同时让磁盘子系统工作在最大吞吐量模式下,此时四核系统功耗达到了192瓦,而双核系统功耗为176瓦,两者的差异约为26瓦。
由于我们这台服务器仅仅配置了一颗四核处理器,因此我们无法通过增减处理器数量的方式来估算四核处理器的功耗。但是之前,根据我们的估算Xeon 5110处理器的满载功耗约为38瓦,因此我们可以大致的推导出来四核Xeon 5320处理器的满载状态下实际功耗约为64瓦。
IT168评测中心观点
在评测配置了双核Xeon处理器的宝德PR1510D服务器之后,我们认为这是一款具有均衡性能的系统,它在有限的1U高度的机箱内提供了尽可能多的扩展能力和冗余特性。比如其利用ESB6321 I/O Hub提供了双千兆网卡,还支持SAS RAID 0/1、还提供了2条PCI-E x4插槽、1条PCI-X 64bit/100MHz插槽、1条PCI-X 64bit/133MHz插槽和1条PCI 32bit/33MHz插槽。利用转接卡甚至可以在1U机箱内安装一张全高全长的PCI-E扩展卡。宝德PR1510D平滑升级的能力在英特尔四核Xeon 5300处理器的推出的同时得到了验证,使得它成为了第一款送达IT168评测中心进行全面测试的1U服务器。
在对于代号Clovertown的Xeon 5300系列处理器进行实际测试之前,我们对于这个系列的处理器的性能充满了疑问,因为去年采用类似技术实现的双核产品Smithfield相对于单核Xeon的性能优势只有20-30%左右。实际测试的结果显示,在以SPECint为代表的整数应用中、在Web服务器应用中,配置了单路四核Xeon 5320处理器的服务器具有同配置了双路双核Xeon 5120处理器的服务器相当的性能。在以SPECfp为代表的浮点应中,单路四核可以提供相当于双路四核70%的性能,在数据库应用测试中也是如此。我们对于Xeon 5320处理器的功率进行了估算,发现它的功率在64瓦左右,而双核Xeon 5120处理器的功率约为38瓦,每瓦性能提示幅度最高可达18%左右。
英特尔的第一款用于双路服务器市场的四核处理器的表现是值得肯定的。据悉,明年英特尔会进一步的扩展四核产品线,预计在第一季度推出针对单路服务器的3200系列处理器,第三季度,则会把四核技术应用到四路服务器产品中。英特尔还透露他们会采用更先进的方式来实现四核。