1. 超能网 >> 
  2. 新闻 >> 
  3. CPU >> 
  4. 神威太湖之光超算揭秘:国产260核自研处理器,能效比超高

神威太湖之光超算揭秘:国产260核自研处理器,能效比超高

2016-6-20 16:56  |  作者:bolvar   |  关键字:神威,太湖一号,申威处理器,TOP500

分享到:
太湖之光超级计算的背后是中国国产处理器的大进步,它使用的是申威SW26010处理器,260核心,64位架构,该系统的一大特色就是能效非常高,性能几乎是天河2号的三倍,但总功耗反而更低了。
本文约1273字,需2分钟阅读
在今天公布的全球TOP500超算排名中,中国不仅保住了最强计算机的荣誉,而且在TOP500计算机数量上也实现了新突破,更关键的是在美国卡脖子之后中国用自己研发的处理器实现了超越,这次神威计算机不声不响地拿下TOP500冠军距离美国制裁中国超算中心不过一年零两个月。太湖之光超级计算的背后是中国国产处理器的大进步,它使用的是申威(跟计算机名别混了)SW26010处理器,260核心,64位架构,该系统的一大特色就是能效非常高,性能几乎是天河2号的三倍,但总功耗反而更低了。神威太湖之光:不仅性能最强,能效也逆天先来简单说说神威太湖太湖之光计算机,它坐落于太湖之滨的无锡市国家超算中心内,此前大出风头的天河2号则是在中国广州的国家超算中心。神威计算机的研发单位是中国国家并行计算机工程技术研究中心,在太湖之光之前该中心研发过神威蓝光计算机,2012年安装于济南的国家超算中心内,当年的浮点性能为1千万亿次,现在来看性能早已经不算领先了,不过当时蓝光也是国内自主研发的HPC,使用的就是国产处理器。
神威太湖之光超级计算机简介
在TOP500官网上可以找到太湖之光计算机的详细规格,其Linpack浮点性能为93PFLOPS,理论性能是125.4PLFOPS,而此前最强的天河2号性能分别是33.86LFOPS、54.9PFLOPS,也就是说太湖之光的实用性能几乎是天河2号的3倍,理论性能则是后者的2倍多,性能效率达到了74.2%,而天河2号只有55.8%。
神威太湖之光的能效比非常高
更关键的是,在性能大幅飙升的情况下,太湖之光的功耗反而从天河2号的17.8MW降低到了15.37MW,计算下来其单位性能功耗达到了6GFLOPS/W,而以能效比著称的“泰坦”单位性能不过是2.1GLOPS/W。太湖之光的能效就算放到以节能而非性能为指标的Green500计算机中也是拔尖的,后者最新榜单中排名第一的单位性能不过是7GFLOPS/W,第二名的是5.3GLOPS/W,太湖之光能成为第二,而这两台计算机的性能与太湖一号差太远了,最强的Shoubu也不过605TFLOPS(0.65PFOPS)。申威处理器:国产260核处理器神威计算机使用的处理器来源于上海江南计算所,神威蓝光计算机使用的是申威SW1600处理器,2010年问世,架构体系源于DEC Alpha(这个是喷点啊,喷子要注意了,申威指令集不是国产的),根据资料来看它使用的还是65nm工艺,16个RISC 64位核心,频率在975MHz到1200MHz之间,1.1GHz频率下浮点性能140.88GFLOPS。
太湖之光使用的是申威SW26010处理器
太湖之光显然不可能再使用神威1600处理器了,这次使用的是江南计算所研发的申威SW26010处理器,架构体系还是Alpha 64位RSIC,乱序执行,频率1.45GHz,260个核心,整个处理器包括4个MPE(Management Processing Element)管理单元、4个CPE(Computing Processing Element)计算单元及4个MC内存控制器单元组成,其中CPE单元又由8x8阵列的64核心组成,所以总计是260个核心(4x64+4=260)。这样1个处理器就是1个节点,每个节点8GB DDR3内存,256个节点组成1个超级节点,160个超级节点互联连接,因此总计是40960个节点,10649600个核心,内存容量1.3PB。
每张计算卡上有2个节点

每块主板上可以布置上下4张计算卡

32张卡组成1个超级节点,或者说256个节点

4个超级节点组成1组机柜

太湖之光的整体布局
要想了解太湖之光的详细架构信息,可以读读田纳西大学这篇论文至于如何评价中国太湖之光到底有多强,可以看下论文中对比的美国最强HPC、中国前一代最强HPC及当前太湖之光的配置。
    
  1. 游客  06-22 09:04

    游客:

    500强2011-2012的历届冠军都只能比前任提高10-50%,而天河2直接把记录翻了一倍(34pf)……呛得人穷志短的美帝连续6个赛季没换过劲儿。这次太湖之光把门槛又翻了3倍(93pf),看来观海同志离开白宫之前是没希望翻盘了。这次还用的是国产芯,真是奇迹哪。秘诀在哪里?

    简单:你得透彻理解规则。什么规则?500强比得是Linpack。

    Linpack的特征是:1)可以大规模并发,有多少核都能用上;2)每个核/线程只使用少量本地数据,便于缓存,对内存和系统总线/互联压力不大(当然是相对而言)。说到底拼的就是浮点单元啊。天河2堆了91万个Xeon Phi核,是美帝泰坦尼克号cuda核数的3.5倍。怎么样,有钱就是任性,不服来战。不过这次被美帝禁运了HPC咋办?没事,那就堆低功耗的DSP呗!
    2016-06-20 21:09 已有1次举报
  2. 支持(8)  |   反对(7)  |   举报  |   回复
  3. 游客:

    已经隐藏4层评论[点击展开]

    游客:

    可惜很多时候面子大于实际。。。国情这这样, 不过超算就算利用率低点还是有用的。。。不能说是浪费
    06-20 16:23
  4. 支持(0)  |   反对(0)  |   举报  |   回复
  5. 体制决定了只要上级满意、“人民”满意,钱不是问题。
    至于东西有没有用,至少能跑分,激励民心士气,总比贪污浪费掉好吧。

    支持(0)  |   反对(0)  |   举报  |   回复

    177#

  6. 
  7. 游客  06-20 16:23

    游客:

    500强2011-2012的历届冠军都只能比前任提高10-50%,而天河2直接把记录翻了一倍(34pf)……呛得人穷志短的美帝连续6个赛季没换过劲儿。这次太湖之光把门槛又翻了3倍(93pf),看来观海同志离开白宫之前是没希望翻盘了。这次还用的是国产芯,真是奇迹哪。秘诀在哪里?

    简单:你得透彻理解规则。什么规则?500强比得是Linpack。

    Linpack的特征是:1)可以大规模并发,有多少核都能用上;2)每个核/线程只使用少量本地数据,便于缓存,对内存和系统总线/互联压力不大(当然是相对而言)。说到底拼的就是浮点单元啊。天河2堆了91万个Xeon Phi核,是美帝泰坦尼克号cuda核数的3.5倍。怎么样,有钱就是任性,不服来战。不过这次被美帝禁运了HPC咋办?没事,那就堆低功耗的DSP呗!
    2016-06-20 21:09 已有1次举报
  8. 支持(8)  |   反对(7)  |   举报  |   回复
  9. 游客:

    已经隐藏3层评论[点击展开]

    游客:

    军方的项目,本来就很低调,只为挣个500强TOP1的虚名而浪费钱的话,毫无必要。
    决策者与设计者们不是傻子,他们对这个超算的定位把握,要比你我准确的多
    2016-06-21 19:08
  10. 支持(2)  |   反对(1)  |   举报  |   回复
  11. 可惜很多时候面子大于实际。。。国情这这样, 不过超算就算利用率低点还是有用的。。。不能说是浪费

    支持(0)  |   反对(0)  |   举报  |   回复

    176#

  12. 
  13. 游客  06-20 03:01

    一千多万核心,能耗反而不高,是不是说单核心功耗和性能不高,用数量堆起来的,我不懂,就问问

    支持(0)  |   反对(0)  |   举报  |   回复

    175#

  14. 
  15. 游客  01-18 13:21

    游客:

    不发通稿,超能很惨,大家要理解哟

    不是每个人都能豪爽的丢下“无法跟你们姓”这种话走人的
    2016-06-20 18:23 已有10次举报
  16. 支持(1)  |   反对(4)  |   举报  |   回复
  17. bolvar 管理员 :

    已经隐藏3层评论[点击展开]

    游客:

    型号你有写吗,只会骂人的五毛小编。超能网是国企?
    2016-06-21 09:40 已有4次举报
  18. 支持(3)  |   反对(6)  |   举报  |   回复
  19. 神威蓝光计算机使用的是申威SW1600处理器

    支持(0)  |   反对(0)  |   举报  |   回复

    174#

  20. 
  21. 游客  2016-11-09 04:03

    型号在top500.org上能查到,cpu是国内自主研发的。

    支持(0)  |   反对(0)  |   举报  |   回复

    173#

  22. 
  23. 游客  2016-08-11 18:58

    游客:

    不发通稿,超能很惨,大家要理解哟

    不是每个人都能豪爽的丢下“无法跟你们姓”这种话走人的
    2016-06-20 18:23 已有10次举报
  24. 支持(1)  |   反对(4)  |   举报  |   回复
  25. bolvar 管理员 :

    已经隐藏3层评论[点击展开]

    游客:

    型号你有写吗,只会骂人的五毛小编。超能网是国企?
    2016-06-21 09:40 已有4次举报
  26. 支持(3)  |   反对(6)  |   举报  |   回复
  27. 明明就写了

    支持(1)  |   反对(0)  |   举报  |   回复

    172#

  28. 
  29. 游客  2016-06-23 15:34

    游客:

    不发通稿,超能很惨,大家要理解哟

    不是每个人都能豪爽的丢下“无法跟你们姓”这种话走人的
    2016-06-20 18:23 已有10次举报
  30. 支持(1)  |   反对(4)  |   举报  |   回复
  31. bolvar 管理员 :

    已经隐藏3层评论[点击展开]

    游客:

    型号你有写吗,只会骂人的五毛小编。超能网是国企?
    2016-06-21 09:40 已有4次举报
  32. 支持(3)  |   反对(6)  |   举报  |   回复
  33. 你美国粑粑都承认的东西,一只狗在这吠个什么劲?

    支持(4)  |   反对(1)  |   举报  |   回复

    171#

  34. 
  35. 游客  2016-06-22 18:55

    游客:

    TOP500官网上面,除了这个强调浮点计算能力跑Linpack的主榜,还有两个子榜。一个是Graph500,强调图像处理等等计算不深但是数据密集的计算性能,另一个是Green500,强调单位计算能力内能耗要小。有一些系统,特地去钻孔子,不标榜自己的计算性能,而投机取巧去优化能耗,等等。所以,这三个榜单排名,一般来说,名次有很大的变动。

    这里把神威-太湖之光的数据摆一下:
    主榜第一,超过第二名1倍还多,几乎是第三名美国的那套系统的三倍!
    Graph500榜排第二!当初天河二号主榜第一的时候,在这个榜上排第5、第6的样子,那已经非常优秀了。
    Green500榜排第三!性能远超过天河二号的情况下,能耗反而比天河二号小。能效榜上排前面的两位,计算性能比太湖之光差得太远了。

    这些数据都是公开的。美国人主评主排的。喷子们还有什么话说?
    2016-06-22 18:33
  36. 支持(2)  |   反对(0)  |   举报  |   回复
  37. Graph500榜上排第一的是一台专门集成海量图像处理器芯片(GPU)的计算机。
    Green500榜上排在前面的实际上是同一套系统(原版和升级版),专门优化能耗为夺这个榜首的。

    所以可以说,太湖之光,在全部三个榜单上的排名,是惊人的一致!是一致性的优秀!

    其实,能耗500的那个排名,完全是对超算技术发展方向的误导。譬如说,你现在搞了一个超级大杀器,你会去追求它外部包装漂亮它的飞行姿态妙曼优美?再譬如,你争的是重量级拳王金腰带,你会在乎你的面部化妆在荧光屏下吸引少女?

    太湖之光,哪怕搞出来会10倍于现在的能耗,也要搞!比起他的用途,这点能耗算个毛。

    2001年之前,超算500强的排行榜上,还没有中国的影子呢。现在,单台最强榜,中国包揽冠亚军;总台数最多榜,史上第一次有国家超过美国,她是中国!(中国167台,美国165台。)而且中国的那些上榜超级计算机,大多数是企业民用部署。美国人的报导中,还特意提到了这一点。

    支持(4)  |   反对(1)  |   举报  |   回复

    170#

  38. 
  39. 游客  2016-06-22 18:33

    TOP500官网上面,除了这个强调浮点计算能力跑Linpack的主榜,还有两个子榜。一个是Graph500,强调图像处理等等计算不深但是数据密集的计算性能,另一个是Green500,强调单位计算能力内能耗要小。有一些系统,特地去钻孔子,不标榜自己的计算性能,而投机取巧去优化能耗,等等。所以,这三个榜单排名,一般来说,名次有很大的变动。

    这里把神威-太湖之光的数据摆一下:
    主榜第一,超过第二名1倍还多,几乎是第三名美国的那套系统的三倍!
    Graph500榜排第二!当初天河二号主榜第一的时候,在这个榜上排第5、第6的样子,那已经非常优秀了。
    Green500榜排第三!性能远超过天河二号的情况下,能耗反而比天河二号小。能效榜上排前面的两位,计算性能比太湖之光差得太远了。

    这些数据都是公开的。美国人主评主排的。喷子们还有什么话说?

    支持(2)  |   反对(0)  |   举报  |   回复

    169#

  40. 
  41. 游客  2016-06-22 09:47

    关键是你这东西不得不承认自己是这个国家的公民,还得使用这个国家的语言和文字,否则你就寸步难行。

    支持(1)  |   反对(0)  |   举报  |   回复

    168#

  42. 
  43. 游客  2016-06-21 21:48

    那你还不赶紧去天堂?机票又不贵。

    支持(1)  |   反对(0)  |   举报  |   回复

    167#

  44. 
  45. 游客  2016-06-21 19:24

    国产的和韩国的科技产品理论值和实际效果通常都要打个对折

    支持(2)  |   反对(0)  |   举报  |   回复

    166#

  46. 
  47. 游客  2016-06-21 19:08

    游客:

    500强2011-2012的历届冠军都只能比前任提高10-50%,而天河2直接把记录翻了一倍(34pf)……呛得人穷志短的美帝连续6个赛季没换过劲儿。这次太湖之光把门槛又翻了3倍(93pf),看来观海同志离开白宫之前是没希望翻盘了。这次还用的是国产芯,真是奇迹哪。秘诀在哪里?

    简单:你得透彻理解规则。什么规则?500强比得是Linpack。

    Linpack的特征是:1)可以大规模并发,有多少核都能用上;2)每个核/线程只使用少量本地数据,便于缓存,对内存和系统总线/互联压力不大(当然是相对而言)。说到底拼的就是浮点单元啊。天河2堆了91万个Xeon Phi核,是美帝泰坦尼克号cuda核数的3.5倍。怎么样,有钱就是任性,不服来战。不过这次被美帝禁运了HPC咋办?没事,那就堆低功耗的DSP呗!
    2016-06-20 21:09 已有1次举报
  48. 支持(8)  |   反对(7)  |   举报  |   回复
  49. 游客:

    还记得PS3的CELL处理器吗?(姨夫说:坑了我8年能不记得么!)CELL的架构就是1个PowerPC核心负责通用计算,搭配7-8个PPE堆浮点性能,数字那叫一个好看!这次神威更上一层楼,直接用1个负责通用计算的MPE(Alpha AXP指令集?)搭配64个CPE浮点单元。CELL的PPE被批只是一堆DSP因为只有64KB-128KB本地内存(注意是K),访问PS3主存需要申请DMA。从26010的框图来看,神威CPE也不能访问主存,需要MPE调度64线程并间接给CPE上子弹。这也可以理解,毕竟64路MMC实在太挑战了,而且GPU一堆海量小核不也是同样用法么。主席说,拿什么枪打什么仗。于是我们用1000万支汉阳造齐射,炸出了超算界最大条的……原子弹。

    有用么?有,如果你没事就好算个天气/地震/核爆什么的。如果你的算法并发度略低或者数据吞吐量大,性能可能要打个1-3折。如果你的算法没法大规模并发或者数据块之间耦合度太大,比如玻璃渣想用这货支持100万wower同时上线,那没戏。

    现在你理解为什么超算中心的利用率不一定很高。特别是这个太湖之光……有可能再创新低。毕竟这个体系结构除了特定应用大概也只能没事跑个分了吧。
    2016-06-20 21:11 已有6次举报
  50. 支持(22)  |   反对(6)  |   举报  |   回复
  51. bolvar 管理员 :

    你说的很有道理,不过我有个问题——搞TOP500排名的田纳西大学这么多年的研究原来都不如你一个人清醒,他们竟然不知道用Linpack性能来评估超算性能如来这么不靠谱,这么多年不仅坑了中国的研究经费,欧美日的超算原来用这种标准评估也是错误的,这坑挖的。
    2016-06-20 21:31 已有1次举报
  52. 支持(21)  |   反对(1)  |   举报  |   回复
  53. 游客:

    Linpack 例程库发表于70年代,作者之一是Jack Dongarra;
    Linpack Benchmark发表于1979年,作者是Jack Dongarra;
    1993年起田纳西大学的一个组织用基于Linpack的HPL指标衡量超级计算机的性能并发表Top500至今,领头人是Jack Dongarra;
    顺带指出,你在原文里连接的太湖之光简介,作者也是Jack Dongarra。

    Linpack的局限性很早就有争议,田纳西大学的评审除了HPL指标近年也引入了HPCG指标以增加内存及系统互联的权重。HPCG的临头人还是Jack Dongarra,其结果排名也与HPL排名相差不大。值得注意的是太湖的HPCG得分显著低于天河2但略高于泰坦。

    我不是阴谋论者。不过生活常识告诉我们,Dongarra先生以Linpack一战成名,近二十年又以Linpack衍生产品名利双收,让他彻底砸碎这颗自己培育的金蛋,不容易。
    2016-06-21 11:24
  54. 支持(12)  |   反对(0)  |   举报  |   回复
  55. 军方的项目,本来就很低调,只为挣个500强TOP1的虚名而浪费钱的话,毫无必要。
    决策者与设计者们不是傻子,他们对这个超算的定位把握,要比你我准确的多

    支持(2)  |   反对(1)  |   举报  |   回复

    165#

  56. 
  57. 游客  2016-06-21 16:22

    游客:

    500强2011-2012的历届冠军都只能比前任提高10-50%,而天河2直接把记录翻了一倍(34pf)……呛得人穷志短的美帝连续6个赛季没换过劲儿。这次太湖之光把门槛又翻了3倍(93pf),看来观海同志离开白宫之前是没希望翻盘了。这次还用的是国产芯,真是奇迹哪。秘诀在哪里?

    简单:你得透彻理解规则。什么规则?500强比得是Linpack。

    Linpack的特征是:1)可以大规模并发,有多少核都能用上;2)每个核/线程只使用少量本地数据,便于缓存,对内存和系统总线/互联压力不大(当然是相对而言)。说到底拼的就是浮点单元啊。天河2堆了91万个Xeon Phi核,是美帝泰坦尼克号cuda核数的3.5倍。怎么样,有钱就是任性,不服来战。不过这次被美帝禁运了HPC咋办?没事,那就堆低功耗的DSP呗!
    2016-06-20 21:09 已有1次举报
  58. 支持(8)  |   反对(7)  |   举报  |   回复
  59. 游客:

    已经隐藏3层评论[点击展开]

    游客:

    谣传是台积电16NM技术,那么那会怎么可能用

    貌似top500自己写的文章认为可能是因为现在大部分的用户更注意性价比(成本效益比),于是用更多的运算节点(云计算)取代了一台大机器,可见 China Races Ahead in TOP500 Supercomputer List, Ending US Supremacy
    2016-06-20 22:29
  60. 支持(0)  |   反对(0)  |   举报  |   回复
  61. 额不好意思,好像sw26010是16nm的台漏电工艺?我理解错了,以为还是在用65nm

    支持(0)  |   反对(0)  |   举报  |   回复

    163#

  62. 
  63. 游客  2016-06-21 14:48

    呵呵

    支持(0)  |   反对(2)  |   举报  |   回复

    162#

  64. 
  65. 分享之源大学生 2016-06-21 13:50

    一百万 GB 的运行内存容量?

    支持(0)  |   反对(0)  |   举报  |   回复

    161#

  66. 
  67. 游客  2016-06-21 13:31

    游客:

    500强2011-2012的历届冠军都只能比前任提高10-50%,而天河2直接把记录翻了一倍(34pf)……呛得人穷志短的美帝连续6个赛季没换过劲儿。这次太湖之光把门槛又翻了3倍(93pf),看来观海同志离开白宫之前是没希望翻盘了。这次还用的是国产芯,真是奇迹哪。秘诀在哪里?

    简单:你得透彻理解规则。什么规则?500强比得是Linpack。

    Linpack的特征是:1)可以大规模并发,有多少核都能用上;2)每个核/线程只使用少量本地数据,便于缓存,对内存和系统总线/互联压力不大(当然是相对而言)。说到底拼的就是浮点单元啊。天河2堆了91万个Xeon Phi核,是美帝泰坦尼克号cuda核数的3.5倍。怎么样,有钱就是任性,不服来战。不过这次被美帝禁运了HPC咋办?没事,那就堆低功耗的DSP呗!
    2016-06-20 21:09 已有1次举报
  68. 支持(8)  |   反对(7)  |   举报  |   回复
  69. 哦,原来只要堆DSP就能这么牛逼了,好简单啊!那请问你霉爹和日爹怎么不去堆呢?连神威是军方背景都不知道,还玻璃渣,还wow,笑死

    支持(6)  |   反对(1)  |   举报  |   回复

    160#

  70. 
  71. 游客  2016-06-21 13:05

    果然开始喷能耗了,然而green 500 这个太湖之光排第三,第一和第二是一个产品

    支持(1)  |   反对(0)  |   举报  |   回复

    159#

  72. 
  73. 游客  2016-06-21 11:55

    心疼小编,又被骂了23333

    已有2次举报

    支持(0)  |   反对(0)  |   举报  |   回复

    158#

  74. 
  75. 游客  2016-06-21 11:34

    游客:

    喷子真的挺逗B的,国产菜鸟上来就得战Intel、IBM之类的战神级BOSS。正常人思维觉得能战就不错了,结果是赢了,还是大胜,然而喷子永远是高标准严要求,不仅要赢,还要赢得漂亮,还要赢的全面,你5岁的时候能跑过博尔特?还又扯上什么希望小学,摆脱拿钱发帖也与时俱进一下好吗,早tm看烦了,四川凉山之类的新闻没看过是吗?如今中国自己还要靠乞讨上学,那就是你自己的问题了,更怀疑你是不是故意装穷骗补贴。与其投钱教育出来的都是喷子这种渣滓,还不如不投。
    2016-06-21 08:07 已有1次举报
  76. 支持(12)  |   反对(3)  |   举报  |   回复
  77. 游客:

    已经隐藏4层评论[点击展开]

    游客:

    你帮别国的人计算,而别国的人想灭你,而你不知道在算什么,不就是所谓的不动一兵一卒就干死你,连算什么都不知道还提什么安全。
    2016-06-21 11:27
  78. 支持(1)  |   反对(0)  |   举报  |   回复
  79. 这里的安全说的是数据安全,大可以只计算本国数据要求,而且嘛,本国算力都不够用的

    做一大堆分散式在西北正好消耗掉西北省份那些没人要导致停机的新能源,铺设光纤卖计算力比铺设高压电线卖电强(简单)多了

    支持(1)  |   反对(0)  |   举报  |   回复

    157#

查看全部评论(156)
回复