[摘要]中國(guó)超算走過了一條比較特殊的路,就是機(jī)器發(fā)展拉動(dòng)應(yīng)用需求,也就是說中國(guó)機(jī)器的水平是超過了應(yīng)用需求的。
6月25日, “超級(jí)計(jì)算機(jī)500強(qiáng)”(TOP500)最新榜單正式發(fā)布。時(shí)隔五年,美國(guó)超級(jí)計(jì)算機(jī)“Summit”終于超越中國(guó)超算神威·太湖之光,重回第一。
美國(guó)超算卷土重來意味著什么?中國(guó)還有反超的機(jī)會(huì)嗎?超算未來的發(fā)展趨勢(shì)是怎樣的?為此,大院er訪問了中國(guó)科學(xué)院計(jì)算技術(shù)研究所的張?jiān)迫芯繂T。
圖1 6月25日公布的超算TOP500的前十名
問:在最近的超算排行榜上,美國(guó)多年后重回榜首,意味著什么?
答:超算TOP500每年發(fā)布兩次,我們國(guó)家的天河2號(hào)和太湖之光,分別六次和四次拿到冠軍,一共十次,相當(dāng)于連續(xù)五年占據(jù)了TOP500的冠軍位置。
圖2 超級(jí)計(jì)算機(jī)“神威·太湖之光”
美國(guó)政府為此很著急。之前由于奧巴馬政府對(duì)超算不夠重視,奧巴馬只是在第二個(gè)任期快結(jié)束的時(shí)候才發(fā)布了一項(xiàng)總統(tǒng)令,加快超算研制的創(chuàng)新步伐。 而特朗普就任以后,卻對(duì)超算極其重視,在砍掉了很多科學(xué)研究預(yù)算的情況下,超算的預(yù)算不但沒砍,反而增加了。
幾年前,美國(guó)部署了三臺(tái)百P(相當(dāng)于十億億次)量級(jí)的超級(jí)計(jì)算機(jī),每秒的運(yùn)算速度可以達(dá)到100P到200P左右,分別是Summit、Sierra、Aurora三臺(tái)機(jī)器。目標(biāo)有三個(gè):第一當(dāng)然是為美國(guó)的國(guó)家實(shí)驗(yàn)室研發(fā)世界領(lǐng)先的超級(jí)計(jì)算模擬系統(tǒng),保持美國(guó)科學(xué)創(chuàng)新的領(lǐng)導(dǎo)地位;第二是希望保持美國(guó)在超級(jí)計(jì)算機(jī)研制上的技術(shù)優(yōu)勢(shì)和領(lǐng)先水平;第三就是希望把TOP500第一的位置奪回來。為此美國(guó)大概撥款了5個(gè)億美元的預(yù)算,計(jì)劃在2018年年底推出第一臺(tái)機(jī)器,重返Top500榜首。
但是美國(guó)終究無(wú)法繼續(xù)容忍中國(guó)再霸占世界TOP500的冠軍位置半年,將原來的計(jì)劃提前了半年,于今年6月份就調(diào)整計(jì)劃推出了Summit、Sierra兩臺(tái)機(jī)器,作為雙保險(xiǎn)爭(zhēng)奪世界第一,Summit直接將峰值性能提升到200P,終于如愿奪回世界第一的位置,美國(guó)終于松了一口氣,重新找到老大的感覺。其實(shí)美國(guó)最早是想用峰值180P的Aurora來作為種子選手爭(zhēng)奪世界第一的,但是由于英特爾負(fù)責(zé)研制的新Xeon Phil加速器無(wú)法按期完成,只好修改合同,直接去研發(fā)2021年完成的百億億次超級(jí)計(jì)算機(jī)A21。
圖3 美國(guó)超級(jí)計(jì)算機(jī)Summit
問:中國(guó)在超算領(lǐng)域的實(shí)力到底怎么樣?未來要解決哪些問題?
答:如果畫一條中國(guó)超算的性能發(fā)展曲線的話,可以看到,中國(guó)的超算實(shí)際上是從一窮二白做起的。在2002年之前,TOP500上就沒有中國(guó)的超算,或者說中國(guó)超算本身就很少。從2002年之后,經(jīng)過15年的高速發(fā)展,中國(guó)超算的上榜數(shù)量,包括性能都是指數(shù)級(jí)增長(zhǎng),以旱地拔蔥的方式一躍而起。
圖4 中國(guó)超算的跨越式發(fā)展
原來是美日歐三大集團(tuán)瓜分世界超算TOP500的前三名,像馬拉松一樣,他們平穩(wěn)地跑在第一方陣。而中國(guó)就屬于從隊(duì)尾直接沖到了第一方陣中的選手,我們超過了第三名的歐盟,超過了第二名的日本,最后又超過了美國(guó),成為世界第一。15年的時(shí)間很不容易,從一窮二白到最后成為世界第一,中國(guó)超算機(jī)器的研發(fā)水平,現(xiàn)在確實(shí)是世界領(lǐng)先的,處在第一方陣的靠前水平。
但是我們也面臨很多的困擾,我們的機(jī)器發(fā)展比較快,但是相應(yīng)的應(yīng)用和軟件研制這塊有點(diǎn)滯后,沒有完全跟上,可能有投資原因,還有各種人才培養(yǎng)周期的原因。但是現(xiàn)在我們也在積極的解決這些問題,后期國(guó)家對(duì)軟件研發(fā)、對(duì)人才的培養(yǎng)都加大了投資力度。這些問題還需要5到10年的時(shí)間去解決,達(dá)到平衡狀態(tài)。
中國(guó)超算走過了一條比較特殊的路,就是機(jī)器發(fā)展拉動(dòng)應(yīng)用需求,也就是說我們機(jī)器的水平是超過了應(yīng)用需求的。這是一種政府主導(dǎo)的快速發(fā)展模式。這個(gè)路現(xiàn)在是比較成功的。我們機(jī)器發(fā)展比較快,也帶動(dòng)應(yīng)用的水平快速提升。但是未來我們希望能夠用5到10年的時(shí)間,把這種發(fā)展模式轉(zhuǎn)變成應(yīng)用需求來拉動(dòng)機(jī)器發(fā)展,這樣更科學(xué)更合理。這種發(fā)展模式,也是西方發(fā)達(dá)國(guó)家現(xiàn)在的發(fā)展模式。
現(xiàn)在來看,我們已經(jīng)連續(xù)兩年拿了戈登貝爾獎(jiǎng)(編者注:該獎(jiǎng)設(shè)立于1987年,主要頒發(fā)給高性能應(yīng)用領(lǐng)域最杰出成就,通常會(huì)由當(dāng)年TOP500排行名列前茅的計(jì)算機(jī)系統(tǒng)的應(yīng)用獲得),說明應(yīng)用水平提高還是很快的!
圖5 中國(guó)團(tuán)隊(duì)獲得戈登貝爾獎(jiǎng)
問:據(jù)說中國(guó)9月份就可以重回TOP500的榜首了,是真的嗎?
答:這個(gè)絕對(duì)是謠言,中國(guó)至少在今年是不可能重回TOP500榜首的。美國(guó)會(huì)占據(jù)排行榜第一名的位置大概至少兩年的時(shí)間,蟬聯(lián)四次冠軍是有可能的。
至于在2020年有沒有可能?也許有可能。我國(guó)的計(jì)劃應(yīng)該是在2020年左右,憑借百億億次超級(jí)計(jì)算機(jī)重新去奪回世界第一的位置。但是能不能奪回來,也很難說,因?yàn)槊绹?guó)、日本、歐盟也在強(qiáng)化研制下一代的超級(jí)計(jì)算機(jī),他們都是計(jì)劃在2021年左右推出,到底最后第一是誰(shuí)還不一定。
圖6 2020年,中美超算的競(jìng)爭(zhēng)將繼續(xù)
近五年來,中國(guó)占據(jù)了TOP500的榜首,原因之一是我們的發(fā)展道路(機(jī)器發(fā)展拉動(dòng)應(yīng)用需求),但是也有運(yùn)氣成分,因?yàn)檎锰幵诿廊諝W的低潮期。在這五年里,美日歐的研制計(jì)劃都比較弱。日本國(guó)內(nèi)對(duì)于要不要拿TOP500世界第一也有一些分歧,結(jié)果日本國(guó)會(huì)沒有撥款,所以日本的研發(fā)計(jì)劃一再拖延。歐盟是因?yàn)樗旧頉]有實(shí)力自己研制,只能購(gòu)買美日等國(guó)的產(chǎn)品。美國(guó)是因?yàn)檎锰幵趭W巴馬政府不重視的時(shí)期,預(yù)算被調(diào)整,本身的研制周期也出了問題。所以我們找到個(gè)空檔,打了勝仗,這是難得遇到的歷史機(jī)遇。
圖7 超算TOP500中美國(guó)與中國(guó)的份額對(duì)比
美國(guó)這次雖然拿了第一,但與中國(guó)的太湖之光所釆用的體系架構(gòu)相比,并沒有本質(zhì)的區(qū)別。太湖之光的峰值是125P,美國(guó)的Summit是187P,沒有量級(jí)上的性能差別。只是說由于Summit的投資力度大、研發(fā)時(shí)間晚,采用了新的工藝和技術(shù),它的峰比太湖之光高一些,但是其在架構(gòu)和技術(shù)上并沒有拉開差距。
問:據(jù)說最新的天河3號(hào)和神威的原型機(jī)都要發(fā)布了,它們達(dá)到百億億次的水平了嗎?
答:這個(gè)是媒體誤導(dǎo),原型機(jī)很小,性能只有5P,也就是100P的1/20。只是一個(gè)測(cè)試性的樣機(jī),為未來的百億億次超級(jí)計(jì)算機(jī)探索技術(shù)路線圖的,并不是最后的百億億次機(jī)。
問:下一代的超級(jí)計(jì)算機(jī)就是百億億次超算,會(huì)用到什么特別新的技術(shù)嗎?
答:現(xiàn)在全球的各個(gè)國(guó)家又重視超算了,都在重新調(diào)整戰(zhàn)略。新一代的百億億次競(jìng)爭(zhēng)就會(huì)從2020年開始。到底哪個(gè)國(guó)家先做出來?
百億億次超級(jí)計(jì)算機(jī)的最大的問題就是功耗控制,需要在半導(dǎo)體工藝上有很大的突破,才有可能把功耗控制在30兆瓦左右。如果說功耗控制沒有發(fā)生革命性的降低,以現(xiàn)在的技術(shù)去搭建的話,它的功耗可能會(huì)達(dá)到一百兆瓦,就沒法用了。電費(fèi)也太貴,1年的電費(fèi)相當(dāng)于十億人民幣。所以國(guó)際上的競(jìng)爭(zhēng)就是看誰(shuí)有本事在30兆瓦的功耗預(yù)算的前提下,能夠造出百億億次超級(jí)計(jì)算機(jī),這個(gè)是目前最大的挑戰(zhàn)。
問:說到超級(jí)計(jì)算機(jī),我們總是“不明覺厲”,它到底能用來干什么?
答:超級(jí)計(jì)算機(jī)簡(jiǎn)單的說就是“算天算地算人”,它的運(yùn)算范圍可以說是天文地理無(wú)所不包。
圖8 超級(jí)計(jì)算機(jī)運(yùn)算范圍無(wú)所不包
第一個(gè)方面是滿足國(guó)家戰(zhàn)略的運(yùn)算需求,比如說核武器核力量研發(fā)、核反應(yīng)堆的研發(fā)。
第二個(gè)方面是參與國(guó)家信息安全情報(bào)的大數(shù)據(jù)處理。
第三個(gè)方面是科學(xué)計(jì)算,研究各種科學(xué)問題。比如宇宙的演化、汽車的碰撞、藥物的設(shè)計(jì)……方方面面的研究都會(huì)用到超級(jí)計(jì)算機(jī)。比如說,如果沒有超級(jí)計(jì)算機(jī),天氣預(yù)報(bào)的水平就會(huì)跟不上的,精度也不夠,準(zhǔn)確率也不高。
第四個(gè)方面是大數(shù)據(jù)和人工智能。現(xiàn)在的人工智能研究大量地采用超級(jí)計(jì)算機(jī)的異構(gòu)加速體系架構(gòu),很多互聯(lián)網(wǎng)公司也在用GPU搭建大量超級(jí)計(jì)算機(jī)。
從這四個(gè)角度來說,它都有很大的作用。超算正越來越多的滲透到各行各業(yè)中去。
現(xiàn)在還出現(xiàn)了新的趨勢(shì),就是在這一輪的科技創(chuàng)新中,大數(shù)據(jù)、云計(jì)算,人工智能、區(qū)塊鏈,還有邊緣計(jì)算等等,這些熱詞的背后全都需要超強(qiáng)的計(jì)算能力,我們叫做算力經(jīng)濟(jì)。一個(gè)地方想發(fā)展新的高科技,如果沒有很強(qiáng)的云計(jì)算平臺(tái)或超級(jí)計(jì)算平臺(tái),算力經(jīng)濟(jì)的創(chuàng)新性都無(wú)從談起。所以說,超級(jí)計(jì)算機(jī)在中國(guó)新的發(fā)展、新的科技創(chuàng)新中都是極為重要的一環(huán)。