zhaowei79 2007-10-15 08:52
龙芯3号多核处理器设计及其挑战--胡伟武[转贴
转贴这个首先自豪一下---龙芯产业化做到 目前的高水平的地步,‘龙芯3号处理器将达64核 部分兼容x86’。
其次想对中华网论坛提个请求,当初,中华网论坛充斥了很多关于龙芯的谣言贴--有个比较过分的谣言大意是:‘龙芯是直接的MOTO的芯片,然后找了 几个 农民工来人工打磨,做了个龙芯的LOGO.......’我强烈要求,把这些人的ID公布。其他有关的信息提交给政府部门。因为这些人严重违反了中华网的和互联网的规定,造谣,损害国家荣耀和利益.....请看《中华网通行证服务协议》节录--5、用户管理;而且第三分条,就有明确的规定: (c) 损害国家荣誉和利益的;(f) 散布谣言,扰乱社会秩序,破坏社会稳定的;
.........................................................
看贴前 ,先说个小知识:龙芯是基于RISC架构的CPU,而INTEL和AMD主要是基于CICS,传统意义上的精简指令集计算机(RISC)和复杂指令集计算机(CISC)在基本原理上就存在着差异。到现在,RISC机型中越来越多地增加了能够在几个时钟周期内就能执行的指令,同时在体系结构上的优化也使得高级语言更为有效。 CISC控制器在实现了管道技术之后,使得一条指令基本上在一个时钟周期之内就能够执行完,很大地改善了机器性能。但是,这种流水线操作有个很大的弊病在于每次的跳转或者执行分支指令,又或者是中断发生,都有可能导致管道内数据泛滥,反而导致更长的指令周期。虽然有一些方法能够降低这种不良效果,但是基本上都需要在软件中进行大量处理而最终会降低许多应用程序代码效率。 所以,现在是RISC架构的比CISC架构的效率高,所以,本文中提到的CPU频率为700MHz的,性能上,在媒体播放时‘觉得750M比P4要快一些。’是真实的。
原贴地址http://www.loongson.cn/loongson/article/2007/0909/article_82.html
zhaowei79 2007-10-15 08:53
很荣幸在计算机事业五十周年的时候有机会做这个报告,我的报告题目是龙芯3号多核处理器设计及其挑战。我报告还是涉及多核处理器的发展趋势,龙芯处理器总体情况,主要介绍一下龙芯3号设计目标和设计挑战。
让我说多核处理器的发展趋势,就一句话,就是处理器结构正处在转折期,主频至上的时代已经结束,摩尔定律关于主频部分的终结,晶体管资源还在增加,性能功耗比继性能价格比后成为重要的设计指标,网络和媒体的普及导致计算机应用的变化,处理器经历了简单到复杂,再到简单和复杂的过程。
摩尔定律不是性能定律,以前摩尔定律被赋予很多性能的含义,每1.5年性能提高一倍,摩尔定律真正含义是关于晶体管数目和晶体管开关速度的定律。Intel是摩尔定律的倡导者,根据Intel自己的资料,从486到奔四性能提高了 75倍,有13倍来自工艺的改进,6倍是来自结构的改进。每代微处理器最大的片内时钟频率是上代产品的两倍,其中1.4倍来源于器件按比例缩小,另外 1.4倍来源于流水级中逻辑门数目的减少,如180纳米时是32个等效F04的延迟,而在130纳米时只有26个F04的延迟。
晶体管反转延迟按比例缩小导致性能同步增长的趋势在130纳米时已经终止了。工作电压一直往下降也降不下去了。连线延迟的影响,随着工艺的提高线变短了,但也变细了,全局的连线延迟还会不断增长,因为芯片的面积不变。30纳秒一个时钟信号只能穿过芯片的1%面积。结构上不可能无限制细分流水线,一般认为不可能小于10-12F04,考虑latch的延迟,只剩下6-9级F04。另外封装有一个散热的问题。
zhaowei79 2007-10-15 08:57
晶体管还会增加,我们如何有效利用晶体管资源还是一个问题,晶体管增加,性能增加只是晶体管数目增长的平方根。由于晶体管特性,工作电压不会随着工艺进步而降低,加上频率提高,导致功耗密度随集成度增加而增加。所以Intel暂时推不出4GHz以上的P4。功耗和电压是平方的关系,随着阏值电压的降低,漏电功能大大降低。现在比较强调均衡的性能,比如SPEC CPU2000对顶点,浮点,I/O,大内存有很高的要求。未来需要以低能耗处理大量的服务,比如以网络媒体为代表的流的处理,基于Web的大量请求快速处理。
当业务需求需要结构相应改变,比如如何加速单个控制流的执行过程,现在是比较复杂的硬件,导致了巨大的能耗,未来有可能天然并行的Web服务器,可以通过简单的并行来加速执行过程。以前开始都是体系结构,缩小运算与访存的差距,过去用缓存,面积和能耗的增长,未来流数据只用一次,所以缓存就不管用。现在很多处理器缓存占8、90%的面积。以前说CPU,什么叫CPU,就是运算器加控制器就是CPU,现在一大部分内存在里面。应用的多样性意味着芯片的多样性,一方面芯片的各种应用需要比较专用的芯片,芯片的制造成本不断提高,一个芯片要求延长生命周期把钱赚回来。
处理器结构的周期60年来,以20年周期经历一个简单复杂、简单、复杂的螺旋上升过程。早期的处理器结构由于工艺技术的限制,不可能做得很复杂,一般都是串行执行。后来随着工艺技术的发展,处理器结构变得复杂,流水线技术、动态调度技术、缓存技术,像量机技术被广泛使用,后来推出RISC技术,但后来超流水做得越来越复杂,现在处理器最多可以执行200多条指令,乱序的执行。所以现在又到了一个复杂到一定程度复杂不下去的时候。