“天河-酷卡”云计算渲染平台使动画渲染的制作周期由原来的4至6个月缩短到1天,平均每天同时为8部动漫影视作品提供渲染。《阿凡达》动漫渲染制作耗时1年多完成,如果用“天河二号”,则仅需1个月时间。
随着雾霾现象越来越受人民关注,雾霾天气预警预报已经成为“天河一号”的又一项任务。国家超算天津中心已经研发出雾霾自动化实时预警预报系统,正以河北保定作为试点,对未来5天雾霾天实时预报,未来3年内逐步建成全国性的雾霾预警预报系统。此外,天河超算还能回溯地球的气候变迁,“天河一号”可以模拟2000年前的变化,“天河二号”则可以模拟到5000年前甚至更远。
中科曙光与大气物理所等单位共同研发“地球数值模拟装置”原型机系统,则填补了我国地球系统模式大数据实践平台的空白。
可以说,超级计算机为中国的国防、科研、工业、经济等诸多方面做出了巨大贡献!
以史为鉴,技术封锁其实是件好事,在信息技术领域,建国以来的这段历史就可说明“凡是能买到的都很难做出来了,凡是买不到的都做出来了”。因为只要西方技术封锁,国内买办和国外势力就不可能用“市场换技术”、“造不如买、买不如租”的方式来扼杀自主技术。
那么,中国的人力物力财力将全部投入到自主技术的研发中,辅以中国全世界最齐全的工业部门和扎实的工业基础,加上中国庞大的市场和丰富的资源,就能做到“封锁什么,解决什么”,所以从长期来看,技术封锁是好事。
中美众核芯片对比
在几年前,当Intel第一代至强PHI上市之时,国内根本就没有类似的产品,而龙芯、申威、飞腾准备用于超算的多核芯片也远远无法与Intel匹敌:
飞腾1500,16核,制程40nm,1.8G主频,最大功耗65W,双精浮点144G;
申威1600,16核,制程65nm,1.1G主频,最大功耗70W,双精浮点140G;
申威1610,16核,制程40nm,1.6G主频,最大功耗50W,双精浮点200G;
龙芯3B1000,8核,制程65nm ,1G主频,最大功耗65W,双精浮点128G;
龙芯3B1500,8核,制程32nm ,1.2G主频,最大功耗40W,双精浮点192G。
即便是成绩最好的申威1610的理论双精浮点峰值也只有200G,而Intel第一代至强PHI的理论双精浮点峰值高达1T,是申威1610的5倍。正是因此,天河2号只能无奈的选择Intel至强PHI作为其加速器。
光阴似箭,时过境迁,经过数年的卧薪尝胆,国内IC设计单位的实力与日俱增,不仅能拿出至强PHI计算卡的替代产品,而且在性能上丝毫不落下风。国防科大自主研发的矩阵2000理论双精浮点峰值达2.4T,功耗为200W,理论双精浮点峰值达到第二代至强PHI的80%,性能功耗比略优于第二代至强PHI。
如果说矩阵2000是GSDSP,而非众核加速器,在性能上也稍逊第二代至强PHI一筹,那么上海高性能集成电路设计中心设计的国产众核芯片是对美国禁售至强PHI计算卡最有力的回击,特别是在设计理念上,国产众核加速器非常先进。
因采用异构计算可以获得更好的性能功耗比和峰值性能,目前中美正在建设的100P超算基本采用异构计算,也就是一个计算节点由CPU+加速器组成,比如天河2A号一个计算节点由2个E5(将来可能会替换成国防科大自主研发的64核服务器芯片“火星”)和三个矩阵2000组成。加速器可以是K80这样的GPGPU,也可以是矩阵2000这样的GPDSP,还可以是Intel至强PHI、国产众核芯片这样的众核加速器。
异构计算虽然有很多优点,但也会带来很多缺点,比如通用性不够好,效率不够高,编程比较麻烦,另外,天河2号和美国超算Stampede中的Intel至强PHI计算卡和E5是不共享内存的,因而需要程序员显式拷贝,进而造成性能损失。而国产众核芯片通过设计理念的革新,很大程度减轻了上述方面的负面影响,在某些方面甚至彻底避免了性能损失。
因此,笔者认为,国产众核芯虽然因采用28nm制程,使其在制程上逊色于第二代至强PHI的14nm。但凭借设计理念的先进性,相对于Intel第二代至强PHI会有一定优势。而双精浮点运算峰值高达3T的性能指标,使其成为完全不逊色于Intel第二代至强PHI的存在。
在中国芯片制造水平不断提升,并有望不断缩短和美国芯片制造水平的情况下,如果Intel不能在超算芯片的设计理念上有革命性的改进,那么被国产众核芯片的下一代产品超越只是时间问题。
加拿大华人网 http://www.sinoca.com/