2019可靠云交流会丨北航专家教授刘轶:高特性测

2021-01-21 08:42| 发布者: | 查看: |

2019可靠云交流会丨北航专家教授刘轶:高特性测算的现况与将来 近期几10年来,高特性测算机特性长期性保持10年千倍的提高速率,也便是说高特性测算机的特性市面上上最高特性的非常测算机每10年提高千倍,超出摩尔基本定律提高速率。 作者:思思

7月2日,2019交流会在上海国际大会管理中心庄重揭幕。2019可靠云交流会以 智能化云网边,可靠创将来 为主题,由我国信息内容通讯科学研究院举办。

中午13:30交流会特设的智能化云论坛主题活动宣布刚开始,北航专家教授,测算机学校中法协同手机软件科学研究所所长刘轶做了《高特性测算的现况与将来》的精彩演讲。

北航专家教授,测算机学校中法协同手机软件科学研究所所长刘轶

很开心今日还有机会跟大伙儿共享这个汇报。我今日汇报的题型是 高特性测算的现况与将来 。今日是智能化云论坛,因此简易谈1下高特性测算和人力智能化的关联。

高特性测算发展趋势现况

在高特性测算行业有1个Top500排行榜,每一年6月下旬和11月下旬各自公布两次排行榜,意味着全球现阶段特性最好是500台非常测算机。

大家统计分析Top500特性提高的发展趋势,横轴是時间,近期几10年来,高特性测算机特性长期性保持10年千倍的提高速率,也便是说高特性测算机的特性市面上上最高特性的非常测算机每10年提高千倍,超出摩尔基本定律提高速率。

曲线图上,从2013年刚开始特性提高趋缓,2013年刚开始降到10年百倍,关键是因为解决器特性的提高,伴随着集成化电源电路行业在讲摩尔基本定律结束难题,高特性测算机特性也有进1步放缓的发展趋势,这是全部提高的发展趋势。

全新公布的Top500排行榜中前10名设备报表(6月17号刚公布的排行榜)。排名前10设备中,前2名是美国设备,第3、第4是我国。

2018年6月份,我国苏州太湖之光第1,上年美国Summit冲到第1,Seierra到了第2,大家如今是第3、第4的排行。

排行榜地址是设备安裝部位,关键在美国、欧洲等我国。

峰值特性。测算机行业解决器、浮点运算次数有1个基础理论的峰值特性,但这个排行榜是根据1个检测程序流程测到的特性来排名的,更全面、更综合性调查这台非常测算机综合性特性,包含管理体系构造等各层面综合性特性。

现阶段全球第1的Summit台测算机峰值做到200PF。Linpack特性做到140多PF水平。这个设备的组成,特别解决器,前10设备仅有2台是所谓同构纯CPU设备,第5设备和第9设备纯碎用英特尔CPU搭出来,别的全是对映异构和加快的构造,苏州太湖之光和广州天河2号要末是对映异构,要末是加快器的构造。

功耗。如今排名靠前的设备功耗1般都到10兆瓦左右量级。依照国别排行,即这些设备放在不一样我国,有1个说法是Top500排行里存在所谓3个全球,第1全球占有了绝大部分資源。2020年有1个很趣味的状况,按系统软件数量,即按设备数量,我国早已占到第1,超出了美国,我国占到500台中的200多台,中美两个我国在Top500中占了1一大半。有1个说法:我国在超算上超出了美国,但沒有这么开朗。

此外1个统计分析曲线图,依照特性累计。左图依照台数,Top500里我国占200多台,将其特性加到1起,和美国相比,反过来了,表明我国在Top500里的设备数量相对性比美国多,但特性加到1起比但是美国,也便是美国较为靠前。意味着Top500里所谓非常测算机有非常多是互联网技术公司,中国互联网技术企业做,特性相对性来说是中小经营规模的特性更多1些。

按厂商做统计分析,排名前3我国厂商,想到、浪潮、曙光3家公司在系统软件数量里占到了34%,是第1大。在2020年6月下旬超算交流会上,有1个话题专业讲的是我国如今早已变成了高特性测算最大的生产制造者,最大的消費者。生产制造者反映在我国的厂商在高特性测算体制造系统软件里早已占到了第1。

从特性看来,還是最高,但占比占得小多了,能够看出这3家公司生产制造的高特性测算机数量较为多,但总体设备经营规模相对性较为小。在中国现阶段排名前2位的苏州太湖之光和广州天河2号都并不是这3家厂商生产制造出来的。

全球上最开始进的非常测算机是甚么模样?

排名第1的美国Summit,美国非常测算机关键是由所谓DOE(电力能源部)主导,电力能源属下属有若干个我国试验室,由它来经营和管理方法这些设备,Summit这台设备安裝在美国电力能源部橡树岭我国试验室。在美国2战时,曼哈顿方案开设了橡树岭我国试验室。

这个设备1共有4608个连接点,每一个连接点是典型的群集构造,跟云计算技术十分相仿。

如图,连接点俯瞰图。这个设备是2个CPU+6个GPU,跟一般大伙儿见到的群集连接点的差别:第1,CPU并不是英特尔CPU,而是IBM的PowerCPU,GPU用的是V100;第2,这个用了GPU自带上午高速互连接口,IBM为它专业设计方案了主板,CPU跟GPU之间互联数据信息通路连通,彻底用高炉安全通道完成互联。这里沒有风扇,用的液冷。全部模样跟很相仿,1排1排机柜,但选用液冷,噪声较为低。

互联网技术用的是InfiniBand,是典型的群集构造。实际操作系统软件是:RedHat。

我国两台设备,如今排名第3的苏州太湖之光,放在无锡超算管理中心。这台设备较为有特性的是应用了大家独立的众核解决器SW26010,分为4个核组,每一个组是1主核+64从核,完成高特性浮点运算。这个CPU大约是3年前的测算,那时候浮点做到3个T,跟另外代最快的GPU基础非常,因此特性非常。浮点特性、系统软件峰值特性是125个PF。这个设备从2016年交货到2017年,持续两年4次获得Top500第1的排名。

跟Summit不太好比照,这是2016年的设备,Summit是2018年的设备,两个有代差。

广州天河2号放在广州市的超算管理中心。天宇2号设备说起来1波3折,2020年以来在IT行业,美国禁运话题十分热,高特性测算行业里更早,2015年最先就早已遭到了美国商务部的禁运,广州天河2号是典型第1个被禁运的,先做了1期系统软件,1期系统软件选用英特尔志强解决器+Xeon Phi。有方案2期升級,跟英特尔谈好了,結果美国商务部禁运,没法,只好立足于本身做独立的解决器,因此2期以后,在2015年禁运以后,到2017年进行升級,原本最开始升級方案是立即把英特尔1代加快卡更换成2代,便是如今的所谓KEL,进行系统软件升級。禁运以后卡不可以买了,因此换为了自身的加快卡,完成最后系统软件的升級,峰值特性做到110个PF。

将来的状况。

高特性测算行业现阶段讲的数最多的是所谓E级测算,E级便是Exa-scale,汉语是百亿亿次。

E级测算机遭遇1系列技术性挑戰:

第1,功耗。如今Top10设备功耗常常做到10兆瓦以上,功耗太大对全部设备经营各层面都导致许多不便,耗电多不经济发展;靠谱性遭受危害。高特性测算行业前几年有1个设置,未来做E级测算机时,期待把它的功耗限定在20兆瓦之内。依照这个来换算,特性功耗比要做到每瓦50GFlops以上,如今最好是水平也但是是20G,间距真实50G也有非常间距。现阶段从功耗上都还没合理的技术性方式处理这个难题。

第2,运用特性难题。

第3,可程序编写性难题。系统软件经营规模极其巨大,动辄上百万个解决器核经营规模,致使并行处理性、进程数量很难做到这样的水平,对程序流程员带来许多挑戰。

第4,靠谱性难题。系统软件经营规模巨大以后,以前均值无常见故障工作中時间到了几个小时,将来E级系统软件经营规模还会增大,均值无常见故障工作中小时将会降到1个小时下列,也便是说系统软件全机持续运行不到1个小时就会有连接点挂掉,这样针对全部系统软件、对程序流程运作会带来众多挑戰,全是必须处理的难题。

以便解决这些挑戰,各个我国都进行有关科学研究。我国在2016年起动了E级原形机研发,前后研发出3台E级原形系统软件。

1.曙光E级原形机,选用的是x86解决器。所谓E级原形系统软件并不是E级机,是小经营规模缩微版的,特性仅有3PF,关键以便探寻将来E级机技术性线路、系统软件构架,如何可以真实未来把E级系统软件做出来。

2.曙光系统软件全浸泡式蒸发冷却技术性,使得全部冷却高效率较为高,工作中温度限制较为低。

广州天河E级原形机,做了1些提升和升級,构建出这样1个系统软件。国防科大这个设备特性是互联网技术络彻底独立研发,互联网可重构,使得这个系统软件变成柔性管理体系构造,能够依据运用要求来做灵便的配备。

3.江南地区测算所的神刀E级原形机,选用26010神刀解决器,高密度拼装板子,全部256个连接点1个机架构建,全液冷,技术性水平非常高。另外选用独立互联网技术络。

美、日的状况。

美国几年前提条件出NSCI方案,好几个政府部门单位协作发展趋势非常测算。DoE前两年起动ECP方案,专业进行非常测算机和有关手机软件的研发与配套状况。

线路图 现阶段在美国E级机有两支产品研发团队,IBM+Nvidia协作,也有是Intel+Cray,IBM+Nvidia这个团队2018年两台设备交货,Intel+Cray这个精英团队现阶段沒有交货设备。能够预料,美国第1台E级非常测算机大约在2021年上半年会出現,由英特尔系统软件构建,现阶段其技术性全部构架还不清楚,全是信息保密的。

日本1直在高特性测算行业是关键的参加者,在早期有1个K测算机,汉语叫做京,设备logo便是用毛笔字写的 京 ,几年前起动Post-K,现阶段全部构架早已基础敲定,正中间起了许多曲折。

如今用ARM构架,前1代K测算机还用的是Spark,研发企业全是富士通和日本理化科学研究所协同研发非常测算机,解决器构架由原先的Spark转变成ARM。日本软银回收了ARM企业,用这个还可以从某种水平上来讲是独立的CPU。ARM是自身彻底设计方案,48个测算核+2輔助核,有48⑸2个核,拓展了构件,一共有15万个连接点,设备经营规模十分大,沒有加快器,用CPU搭出来的,因此特性总体很难做得十分高。2019年3月早已刚开始生产制造,预计2020年会交货,总体特性在400P。

高特性测算系统软件的特性和发展趋势小结。

现阶段在构架上以CPU+加快构件和以通用性核+测算核对映异构形状变成现阶段高特性测算机的流行,高特性测算机从传统式的朝向工程项目和科学研究测算刚开始拓展到兼具人力智能化和剖析。另外持续提高的系统软件经营规模带来了若干技术性挑戰。

中、美、日、欧洲等全球关键强国紧紧围绕E级非常测算机进行了猛烈的市场竞争。

伴随着摩尔基本定律的结束,可能给高特性测算甚至全部测算机产业链带来极大的危害。如今有1个论点,大约在2023年上下,摩尔基本定律将会就停了,停了之后如何办。

在我国高特性测算尽管早已获得第1的考试成绩,但還是有许多薄弱点,关键反映在几个层面:基本技术性欠缺,独立的高特性运行内存沒有;手机软件层面更弱,广州天河2号、苏州太湖之光全是独立解决器,构架是自身的,手机软件绿色生态自然环境、专用工具链、开发设计自然环境、各种各样优化算法库、顶层运用手机软件、绿色生态自然环境构建等必须很久的勤奋才能够,而大家中国长期性是所谓重硬轻软;高特性测算手机软件层面,基本上现阶段全部大中型商用测算手机软件均为進口。

1025高特性测算有1个重特大新项目,91%经费投到了设备研发上(硬件配置),重要技术性科学研究和手机软件产品研发不到10%。在美国是1半1半,设备研发是多少钱,手机软件基础是1对1的占比。因此大家要补足这些薄弱点,必须正确的政策和长期性不断的勤奋。

高特性测算与人力智能化的关联。

在人力智能化行业典型的卷积神经系统互联网,根据卷积层和全联接层进行图象鉴别和归类。在这个运用里包括了多层神经系统互联网(深层学习培训关键技术性),干万量级以上的神经系统元,涉及到到很多的测算量。卷积层用这样1个测算归结为3 3小引流矩阵,卷积层和全联接层测算方式最后都反映为引流矩阵和空间向量测算。根据这个事例能够看出,做为高特性测算最善于的空间向量级测算,针对人力智能化有纯天然的支撑点,因此高特性测算是新1代人力智能化关键的支撑点,早已获得许多运用。

排名第1的Summit的Logo里,美国全新和最聪慧的Summits,构架上更善于适用人力智能化相关系,详细介绍中也讲了AI。排名第8的日本设备果断说是1个Open AI infrastructure构架。

高特性测算和人力智能化现阶段展现出互相结合,人力智能化技术性很多用在高特性测算行业,另外高特性测算传统式硬件配置刚开始从以往朝向科学研究和工程项目测算转为兼具人力智能化,如Google的TPU,寒武纪加快卡。现阶段传统式高特性测算硬件配置刚开始向人力智能化出示适用。

我的详细介绍就到这里。感谢!

<
>

 
QQ在线咨询
售前咨询热线
18720358503
售后服务热线
18720358503
返回顶部