2020年英特爾架構(gòu)日:遇見更光明的未來
英特爾公司正處于一場重大轉(zhuǎn)型當中,這場轉(zhuǎn)型幾乎改變了芯片巨頭一切曾經(jīng)熟悉的工作方式。去年,英特爾在2019年的架構(gòu)日活動中做出一系列重要披露,也讓外界人士第一次切實感受到這種轉(zhuǎn)變。必須承認,英特爾在過去一、兩年中表現(xiàn)不佳,尤其是在臺式機、移動設備以及服務器CPU領(lǐng)域。但雖然在這些競爭領(lǐng)域中失去部分份額,但英特爾的市場表現(xiàn)仍然超出了預期。
英特爾公司高級副總裁、首席架構(gòu)師,架構(gòu)、圖形與軟件總經(jīng)理Raja M. Koduri
由于COVID-19疫情的影響,今年的架構(gòu)日活動完全轉(zhuǎn)為線上進行,但披露內(nèi)容卻遠超以往。這也表明,即使英特爾在7納米這道關(guān)隘前久攻不下,其未來發(fā)展仍然前景光明。在2020年的架構(gòu)是一項活動上,英特爾公司繼續(xù)沿著去年提出的六大基本支柱前進,重點關(guān)注公司自身的關(guān)鍵優(yōu)勢領(lǐng)域,同時考慮如何繼續(xù)發(fā)展以保持自身在半導體行業(yè)的強者地位。
10納米制程節(jié)點與SuperFins
英特爾近年來在制程節(jié)點的進步方面一直困難重重,之前是10納米上市日期延后,這次7納米又出了同樣的狀況。但好消息是,芯片巨頭對于14納米與10納米制程都做出了大量節(jié)點內(nèi)的性能改進,也在堅持依靠自己的技術(shù)力量制造芯片產(chǎn)品。雖然從計劃角度來看,英特爾確實打算將某些芯片外包給臺積電,但該公司非常清楚,晶圓廠以及晶圓廠內(nèi)使用的制程節(jié)點對其命運有著至關(guān)重要的作用。也正因為如此,英特爾才繼續(xù)對自家FinFET進行創(chuàng)新思考,希望讓這項最初誕生于22納米時代下的成果再次迸發(fā)出能量。
英特爾正通過多種柵極層面的創(chuàng)新,完善并重新定義FinFET——其中包括改進柵極間距與制程,借此改善通道遷移率與驅(qū)動電流。英特爾還打造出所謂SuperFins,其中包含Super MIM(即金屬絕緣體金屬)電容,據(jù)稱能夠?qū)IM電容增加至5倍。此外還有新型薄勢壘(Novel Thin Barriers)技術(shù),據(jù)稱可將通孔電阻降低30%。這一切FinFET創(chuàng)新再加上對FinFET形態(tài)的重新設計,最終成就了速度更快、甚至堪稱全球最快的晶體管。
事實上,英特爾在10納米制程與架構(gòu)方面的改進相當驚人,據(jù)稱這一代產(chǎn)品的性能較14納米提升了近20%。在14納米時代,英特爾的每一次更新周期(+++)只能實現(xiàn)4%到5%的小幅增量式性能改進,甚至連換四代CPU架構(gòu)也才總計實現(xiàn)約20%的性能提升。此次英特爾將通過一次升級達成目標,也讓10納米工藝換代獲得遠超多數(shù)人想象的重要意義。
有史以來最可觀的節(jié)點內(nèi)性能增量
此外,英特爾設計制程節(jié)點的方式同樣重要。芯片巨頭并未受到芯片代際表述方式的局限,而是努力尋求以不同方法提高每瓦單位性能,借此為制程尺寸的極限保留一點回旋空間。實際上,英特爾方面已經(jīng)透露,他們計劃開發(fā)增強型SuperFins,能夠進一步提高性能、實現(xiàn)互連創(chuàng)新,并針對數(shù)據(jù)中心工作負載做出優(yōu)化。
盡管在所謂“5至6納米”制程方面可能仍處于落后地位,但縱觀英特爾全新晶體管的完整“堆棧”,大家會意識到其已經(jīng)代表著業(yè)內(nèi)的最高性能。接下來,我們將結(jié)合本次架構(gòu)日活動上的Willow Cove公告,對此做出進一步介紹。
封裝與互連
如前所述,英特爾一直在封裝與互連技術(shù)層面推動創(chuàng)新,希望更靈活寺構(gòu)建起諸如英特爾Lakefield處理器之類的產(chǎn)品。未來,英特爾還計劃使用TSV(硅通孔)混合鍵合將各晶片之間的距離縮短至五分之一(從50微米減小至10微米),從而打造出體積更小、更簡單的電路,借此降低功耗與電容尺寸。英特爾之前還公開了Co-EMIB封裝技術(shù),這項技術(shù)能夠?qū)⒂嬎闩c存儲器晶片在同一芯片上進行水平(2D)與垂直(3D)堆疊,借此實現(xiàn)比單片生產(chǎn)工藝大得多的芯片產(chǎn)品。除了Co-EMIB之外,英特爾之前還在積極探索ODI的可行性。ODI能夠?qū)崿F(xiàn)更加緊密的晶片3D集成,其互連帶寬可超越Foveros提供的直連供電方案。預計英特爾還將通過Alder Lake家族,為Lakefiled帶來更多高性能后續(xù)產(chǎn)品,Alder Lake亦有望將英特爾的Golden Cove與Gracemont內(nèi)核整合到同一套性能更強的混合架構(gòu)當中。當然,這一切還不是英特爾所能實現(xiàn)的封裝與互連極限,芯片巨頭未來有計劃推出光纖IO,每千光纖可帶來1 Tbps的超高傳輸帶寬。英特爾預計,其能夠帶來相當于PCIe Gen 6六倍的傳輸密度(最終結(jié)果預計于2021年確定)。此外,英特爾光纖IO的能源效率預計也將比PCIe Gen 6高50%,且延遲表現(xiàn)與電子IO基本相當。
結(jié)合目前行業(yè)中的設計與封裝發(fā)展趨勢,我認為不少企業(yè)將大范圍采用3D封裝技術(shù)以實現(xiàn)對多個小芯片的整合,在這方面英特爾公司擁有強大的實力,甚至可以說是目前市場上的領(lǐng)先者。當然,未來幾周內(nèi),臺積電也將發(fā)布更多最新消息。3D架構(gòu)可以說是英特爾公司的長期戰(zhàn)略以及行業(yè)轉(zhuǎn)變方向,我認為目前的Lakefield架構(gòu)還沒有充分體現(xiàn)出未來的芯片設計思路。當然,其功耗與傳輸帶寬確實更上一層樓,也給人留下了深刻印象。
Tiger Lake與Willow Cove
Tiger Lake與Willow Cove代表著英特爾公司的最新10納米架構(gòu),其中Tiger Lake SoC使用的正是Willow Cove CPU架構(gòu)。新的Willow Cove架構(gòu)使用新型高性能SuperFin晶體管,這些晶體管能夠改善整體金屬堆疊結(jié)構(gòu)。Willow Cove CPU內(nèi)核以大獲成功的Sunny Cove架構(gòu)為基礎(chǔ),并憑借著晶體管與架構(gòu)的改進,使得電壓與頻率曲線實現(xiàn)完全相移,借此在內(nèi)核電壓與時鐘頻率方面帶來更大的動態(tài)范圍。動態(tài)范圍更大,意味著CPU性能將比上代產(chǎn)品高出約20%。盡管Willow Cove的架構(gòu)細節(jié)仍然存在一定局限,但英特爾表示已經(jīng)將緩存架構(gòu)重新設計為更大的1.2MB MLC。英特爾同時指出,他們還在新架構(gòu)中采用控制流執(zhí)行技術(shù),借此防止針對返回/跳躍的攻擊。很明顯,新一代10納米芯片中必然包含著多種其他改進,共同推動英特爾借此實現(xiàn)高達20%的巨大性能提升。
Tiger Lake似乎將通過其六大支柱戰(zhàn)略兌現(xiàn)英特爾公司長期以來希望實現(xiàn)的目標。它的出現(xiàn),證明了英特爾有能力使用Willow Cove通過CPU內(nèi)核擴展中實現(xiàn)13%至25%的性能提升,而這一切也將擴展至芯片巨頭放下的所有產(chǎn)品線,包括臺式機、筆記本電腦以及服務器。在我看來,隨著Tiger Lake邏輯門數(shù)量與ASIC功能的增加,其GPU與ML性能將擁有廣闊的發(fā)展空間。
Tiger Lake中的Xe-LP
Tiger Lake架構(gòu)代表的不只是一款CPU,更是不同電路結(jié)構(gòu)、存儲器、協(xié)處理器以及GPU的組合。在Tiger Lake SoC上,英特爾納入了基于Xe圖形架構(gòu)的新型GPU,即英特爾Xe-LP。該芯片擁有專項設計,可實現(xiàn)15瓦熱設計功耗條件下的穩(wěn)定運行,并根據(jù)所處系統(tǒng)的不同在10瓦至28瓦之間動態(tài)調(diào)整。Xe-LP GPU旨在取代英特爾的第11代圖形架構(gòu),從技術(shù)上講可以算是英特爾的第12代GPU架構(gòu),不過可能會取消傳統(tǒng)的Gen命名習慣、轉(zhuǎn)而冠以Xe的頭銜。Tiger Lake中的Xe-LP可支持多達96個EU(執(zhí)行單元),且EU范圍比第11代更寬,能夠?qū)Τ蓪U實現(xiàn)線程控制共享,從而提升其運行效率。
新的Xe-LP在設計定位上屬于Xe GPU架構(gòu)的入門級別,但也可以通過擴展逐步提升至發(fā)燒友、數(shù)據(jù)中心級甚至是億億次高性能計算(HPC)級。與Willow Cove一樣,Xe-LP在時鐘速率與電壓方面都要比Gen 11具有更大的動態(tài)范圍。這意味著即使是在相同的功率水平之下,英特爾的新一代GPU仍可實現(xiàn)速度提升;如果略微增加電壓,則該GPU的性能將迎來大幅增長。我相信,Gier Lake SoC中使用的Xe-LP GPU擁有光明的前景,足以接過Gen 11的旗幟成為一股令競爭對手倍感壓力的力量。當然,GPU市場一直在不斷發(fā)展,預計今年的GPU架構(gòu)競賽也將進入新的階段,一切可能要等英偉達公司在今年9月正式公布新一代GeForce之后才有定論。
Xe-LP GPU還包含一套新的媒體引擎,能夠?qū)⒕幋a/解碼吞吐量提升一倍,增加了AV1與HEVC屏幕內(nèi)容編碼支持,而且可以在HDR/杜比視界中播放8K60幀內(nèi)容。Xe-LP GPU中的顯示引擎包含四條顯示通道,可支持雙eDP,同時支持DisplayPort 1.4、HDMI 2.0、Thunderbolt 4以及USB 4 Type-C作為輸出端口。英特爾方面表示,它能夠顯示分辨率高達8K的視頻,支持HDR10與杜比視界,甚至支持高達12位的BT2020色深與360 Hz自適應同步刷新率。英特爾還提到,Xe最多可以支持4倍壓縮的4K60幀HDR、2倍4K120幀HDR或者8K60幀HDR。英特爾首款獨立GPU DG1也將使用這套架構(gòu),這款芯片目前已經(jīng)投入生產(chǎn)并有望在今年年內(nèi)正式出貨。
Tiger Lake的平臺改進
除了帶來公司歷史上速度最快的10納米CPU與GPU核心之外,Tiger Lake也實現(xiàn)了其他多項令人振奮的平臺改進。之前提到過,其中使用的雙環(huán)微架構(gòu)一致性結(jié)構(gòu)與最后一級緩存(LLC)都得到巨大提升,LLC大小增加了50%。這意味著相干結(jié)構(gòu)帶寬增加了2倍,能夠更好地保證不同核心、存儲器與GPU核心接收數(shù)據(jù)饋送。事實上,英特爾還支持高達每秒86 GB的存儲器傳輸帶寬以及包含雙存儲器控制器的子系統(tǒng),借此顯著提升了存儲器帶寬。以此為基礎(chǔ),英特爾不僅增加了對LP4x-4267 MHz與DDR4-3200的支持,同時也將在后續(xù)逐步推出對LP5-5400的支持,意味著英特爾的存儲控制器已經(jīng)具備支持DDR5的能力。
英特爾方面還帶來經(jīng)過更新的GNA 2.0(高斯與神經(jīng)加速器),專門用于低功耗神經(jīng)推理。該內(nèi)核的一大常見初期應用,在于神經(jīng)噪聲消除——適用于圖像或聲音處理——能夠令GNA任務處理中的CPU利用率降低20%。在顯示IO方面,英特爾正嘗試以更高的分辨率與質(zhì)量增加對更多顯示器的支持能力。Xe-LP中使用的媒體與顯示引擎已經(jīng)確切證明了這一點。為了實現(xiàn)此項目標,英特爾通過專用結(jié)構(gòu)路徑維持服務質(zhì)量。此連接可為存儲器提供高達64 GB每秒的同步傳輸帶寬。第六代IPU(圖像處理單元)使Tiger Lake平臺得以支持4K90幀視頻(初期支持4K30幀視頻),靜態(tài)圖像分辨率支持上限達4200萬(初期支持2700萬)。
除了GNA 2.0與顯示IO,英特爾還通過Thunderbolt 4與USB 4集成支持對系統(tǒng)的整體IO做出重大改進,借此在各個端口上實現(xiàn)高達40 Gbps的傳輸帶寬。雖然英特爾之前就曾經(jīng)在架構(gòu)當中集成過Thunderbolt 4端口,但Tiger Lake將成為旗下首個支持USB 4的平臺,同時也應該是業(yè)界首批支持USB 4的平臺之一?紤]到USB 4與DisplayPort正通過合作提升兼容性與互操作性,因此英特爾應該可以通過Type-C支持顯示內(nèi)容輸出,包括使用Type-C上的DP Alt模式以及Thunderbolt上的DP通道。除了Type-C之外,未來的PC將不再需要任何其他端口。實際上,目前的一部分高端筆記本電腦,例如戴爾的XPS17,已經(jīng)開始采用這種設計。除了USB 4支持,英特爾還增加了對PCIe Gen 4的支持,意味著芯片巨頭最終將在PCIe層面趕超AMD。Gen 4支持的加入,使得英特爾芯片能夠使用目前市面上的部分超高速NVMe驅(qū)動器。這無疑是個令人欣喜的進展——盡管首個SKU只提供四通道,但我們預計英特爾未來將開放更多PCIe Gen 4通道,用于實現(xiàn)某些高功率、高性能的獨立GPU產(chǎn)品(例如H-系列)。
在ML應用層面,軟件的重要意義無需多言。因此相較于干貨滿滿的硬件更新,我更期待看到哪些軟件能夠真正利用到這么多全新硬件功能。盡管目前尚不清楚Tiger Laker是否在軟件層面與AMD 4000直接競爭,但英特爾似乎對Tiger Lake進行了良好擴展,因此我們有理由相信這套新架構(gòu)在軟件層面也不會出現(xiàn)太大問題。
Xe架構(gòu)更新
除了專為服務器、嵌入式以及移動應用場景設計的全新Xe-LP之外,英特爾還透露稱將推出Xe-HPG變體。Xe-HPG為第一代Xe-HP GPU的游戲優(yōu)化型版本,將采用Xe-LP的每瓦性能架構(gòu),并將其與現(xiàn)有Xe-HP的超大規(guī)模相結(jié)合,借此將更高配置與Xe-HPC的計算頻率優(yōu)化能力結(jié)合起來。這款變體還將引入基于GDDR6的全新存儲器子系統(tǒng),提供光線追蹤的硬件加速支持,并有望在2021年正式上市。有趣的是,如果認真觀察英特爾架構(gòu)日公布的演示文稿,就會發(fā)現(xiàn)XE-HPG將由外部代工廠制造,大多數(shù)分析師認為代工方很可能是臺積電。除此之外,英特爾還討論了如何通過即時游戲調(diào)優(yōu)(Instant Game Tuning)改變GPU歡聲笑語言架構(gòu),以便用戶可以通過英特爾自動推送的驅(qū)動程序管理套件更好、更快地實現(xiàn)游戲優(yōu)化,針對不同游戲獲得更好的使用體驗。
英特爾還詳細介紹了如何通過“瓦片”(tile)設計擴展Xe-HP性能。每個GPU可以通過1到4塊瓦片根據(jù)實際需求擴展Xe-HP性能,這種方法在實驗室中已經(jīng)得到充分驗證。英特爾還詳細介紹了Xe-HPC(Ponte Vecchio)的制造細節(jié),特別是如何在其中使用FOVEROS與Co-EMIB組合通過不同制程制造不同晶片。其中的基礎(chǔ)瓦片與“Rambo Cache”瓦片將采用英特爾10納米工藝制造,計算瓦片則使用英特爾的“Next Gen”工藝由外部晶圓廠負責制造。Xe Link、I/O瓦片同樣將由外部制造。另外,英特爾的SG1、DG1以及Tiger Lake產(chǎn)品將全部采用英特爾最新10納米SuperFin工藝制造,Xe-HP將使用EMIB實現(xiàn)晶片鏈接。最后是英特爾的10納米增強型SuperFin,預計將在2021年正式登陸各產(chǎn)品線。
雖然我對英特爾此次公布的內(nèi)容感到相當振奮,但從務實的角度出發(fā),一切都要先進最終產(chǎn)品投放市場時才算有了定論。
產(chǎn)品、封裝與制程工藝概述
如果您覺得本文的內(nèi)容有點多,實際上……這還只是英特爾今年架構(gòu)日上公布的半數(shù)內(nèi)容。
總結(jié)
本次公布的所有重大架構(gòu)發(fā)展,都是英特爾在已經(jīng)失去部分CPU市場份額,而且7納米制程節(jié)點再度延后6個月的背景之下出現(xiàn)的。更重要的是,盡管在技術(shù)領(lǐng)域遭遇困境,英特爾的運營收益仍然超出華爾街的預期。在本次架構(gòu)日之后,我對芯片巨頭的未來又充滿了信心。因為可以看到,他們既沒有忽略晶圓代工能力的問題,也開始在架構(gòu)層面積極發(fā)力,王者重回巔峰已經(jīng)頗有可能。
Tiger Lake似乎也有望通過其六大支柱戰(zhàn)略兌現(xiàn)英特爾長期以來希望實現(xiàn)的目標。Tiger Lake證明英特爾有決心借助Willow Cove通過CPU核心擴展實現(xiàn)13%到25%的性能提升,相信其GPU與ML性能將迎來更大規(guī)模的擴展。在ML領(lǐng)域,軟件一直非常重要,因此我高度期待英特爾能夠盡快發(fā)布軟件新功能的更多詳細信息。目前尚不清楚Tiger Lake如何與AMD展開直接競爭,畢竟此次架構(gòu)日并不屬于實際產(chǎn)品發(fā)布活動。但就目前來看,英特爾確實很好地擴展了Tiger Lake性能水平,并在必要的位置強化了系統(tǒng)IO容量。
盡管英特爾在晶體管密度方面較“5至6納米”仍然有所落后,但縱觀英特爾的整個全新晶體管“堆棧”,特別是結(jié)合Willow Cove披露的示例,就會發(fā)現(xiàn)其確實代表著業(yè)內(nèi)目前可以達到的最高性能之一。結(jié)合當前整個行業(yè)的設計與封裝發(fā)展思路,我認為后續(xù)將有更多廠商以3D封裝方式將多個小芯片整合在一起。而英特爾在這方面擁有豐富的經(jīng)驗積累,甚至可以說是當前這個領(lǐng)域的領(lǐng)先者。這是一種長期的戰(zhàn)略性與行業(yè)整體轉(zhuǎn)移,現(xiàn)有Lakefiled PPW、特別是明年即將推出的Alder Lake已經(jīng)不足以代表這種重要趨勢。英特爾致力于改進封裝與IO的決心,給我留下了深刻印象,我也相信芯片巨頭將以此為基礎(chǔ)拿出一系列非常有趣的產(chǎn)品——例如Xe-HPC(Ponte Vecchio)。但歸根結(jié)底,行動才是達成一切目標的關(guān)鍵。此次架構(gòu)日只是技術(shù)公開,并非產(chǎn)品發(fā)布,本文提出的一切觀點只是猜測,尚缺少任何量化或者執(zhí)行層面的依據(jù)支持?傊,未來可期,我們靜待英特爾的實際表現(xiàn)!
本文章選自《數(shù)字化轉(zhuǎn)型方略》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
