?高性能處理器研究表明,延續(xù)摩爾定律的新方向即將到來。每一代處理器都需要比上一代性能更好,這也意味著需要將更多的邏輯電路集成到硅片上。但是現(xiàn)階段在芯片制造領(lǐng)域存在兩個(gè)問題:一是我們縮小晶體管及其構(gòu)成邏輯和內(nèi)存塊的能力正在放緩;另一個(gè)是芯片已經(jīng)達(dá)到了尺寸極限。
摩爾定律。圖源:wikipedia
光刻工具只能刻印大約850平方毫米的區(qū)域,大約是頂級(jí)Nvidia GPU的大小。
近幾年,片上系統(tǒng)開發(fā)人員開始將較大的芯片設(shè)計(jì)分解成較小的芯片,并在同一個(gè)封裝內(nèi)將它們連接在一起。在CPU中,連接技術(shù)多為2.5D封裝,其中小芯片彼此并排放置,并使用短而密集的互連連接。由于大多數(shù)制造商已就2.5D「小芯片-小芯片」通信標(biāo)準(zhǔn)達(dá)成一致,這種集成的勢(shì)頭會(huì)不斷發(fā)展。
但是,由于數(shù)據(jù)存儲(chǔ)需求增加,要想將大量數(shù)據(jù)存儲(chǔ)在同一個(gè)芯片上,就需要更短、更密集的連接,而這只能通過將一個(gè)芯片疊加在另一個(gè)芯片上來實(shí)現(xiàn)。將兩個(gè)芯片進(jìn)行連接意味著芯片之間每平方毫米要進(jìn)行數(shù)千次連接。
這需要大量的創(chuàng)新才能實(shí)現(xiàn),工程師必須弄清楚如何防止堆棧中一個(gè)芯片由于過熱毀掉另一個(gè)芯片,防止偶爾出現(xiàn)的壞小芯片導(dǎo)致整個(gè)系統(tǒng)崩潰等。
近日,IEEE Spectrum、負(fù)責(zé)半導(dǎo)體報(bào)道的高級(jí)編輯Samuel K. Moore撰文介紹3D芯片技術(shù)顛覆計(jì)算的3種方式,主要介紹了AMD、Graphcore和英特爾行業(yè)領(lǐng)先優(yōu)勢(shì)。
AMD Zen 3
長期以來,個(gè)人電腦可以選擇增加內(nèi)存來提高超大應(yīng)用程序和數(shù)據(jù)量大的工作速度。得益于 3D 芯片堆疊,AMD 的下一代 CPU 小芯片將提供這種選擇。
Zen 2 和 Zen 3 處理器內(nèi)核都使用相同的臺(tái)積電制造工藝,因此具有相同尺寸的晶體管、互連等。AMD 在架構(gòu)上做了很多改變,即便沒有額外的緩存內(nèi)存,Zen 3 的平均性能也提高了 19%。
值得一提的是 Zen 3 架構(gòu)亮點(diǎn)之一是硅通孔 (TSV) 垂直堆疊芯片,這是一種將多個(gè)芯片相互連接的方式。TSV 是在 Zen 3 最高級(jí)別緩存中構(gòu)建的,即稱為 L3 的 SRAM 塊,它位于計(jì)算小芯片的中間,并在所有 8 個(gè)核心上共享。
在處理繁重?cái)?shù)據(jù)的處理器中,Zen 3 晶圓背面被減薄,直到 TSV 暴露出來,然后,一個(gè) 64 兆的 SRAM 小芯片被連接到那些暴露的 TSV 上,該過程使用的是混合鍵合——一種類似于銅冷焊的過程。其結(jié)果是一組密集的連接可以緊密到 9 微米。最后,為了結(jié)構(gòu)穩(wěn)定和熱傳導(dǎo),在 Zen 3 CPU die(Die 或者 CPU Die 指的是處理器在生產(chǎn)過程中,從晶圓上切割下來的一個(gè)個(gè)小方塊)的剩余部分附著空白硅小芯片。
AMD 3D V-Cache 技術(shù)將一個(gè) 64 兆字節(jié)的 SRAM 緩存(紅色)和 2 個(gè)空白結(jié)構(gòu)小芯片堆疊到 Zen 3 計(jì)算小芯片上。
「通過將空白硅小芯片設(shè)置在 CPU die 旁邊來增加額外的內(nèi)存是不可取的,因?yàn)閿?shù)據(jù)要花費(fèi)太長的時(shí)間才能到達(dá)處理器核心。盡管 L3 緩存大小增加了三倍,但 3D V-Cache 僅增加了四個(gè)時(shí)鐘周期的延遲——這只能通過 3D 堆疊來實(shí)現(xiàn),」AMD 高級(jí)設(shè)計(jì)工程師 John Wuu 表示。
更大的緩存在高端游戲中占有一席之地,使用具有 3D V-Cache 的臺(tái)式機(jī) Ryzen CPU 可將 1080p 的游戲速度平均提高 15%。Wuu 指出,與縮小邏輯能力相比,業(yè)界縮小 SRAM 的能力正在放緩。因此,我們可以預(yù)測(cè) SRAM 擴(kuò)展將繼續(xù)使用更成熟的制造工藝,而計(jì)算小芯片則被推向摩爾定律的前沿。
Graphcore Bow AI 處理器
即使堆棧中的芯片沒有晶體管,3D 集成也能加快計(jì)算速度。總部位于英國的 AI 計(jì)算機(jī)公司 Graphcore 僅通過在其 AI 處理器上安裝電力傳輸(power-delivery)芯片,就實(shí)現(xiàn)了系統(tǒng)性能的大幅提升。
添加電力傳輸硅意味著名為 Bow 的組合芯片可以運(yùn)行得更快(1.85 GHz VS 1.35 GHz),并且電壓低于其前一代。這意味著與上一代相比,計(jì)算機(jī)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的速度提高了 40%,能耗降低了 16%。最重要的是,用戶無需更改其軟件即可獲得這種改進(jìn)。
電源管理 die 由電容器和硅通孔堆疊而成,后者為處理器芯片提供電力和數(shù)據(jù),真正與眾不同的是電容器。與 DRAM 中的位存儲(chǔ)組件一樣,這些電容器是在硅中又深又窄的溝槽中形成的。由于這些電荷儲(chǔ)存器非常靠近處理器的晶體管,功率傳輸變得平滑,從而使處理器內(nèi)核能夠在較低電壓下更快地運(yùn)行。
如果沒有電力傳輸芯片,處理器必須將其工作電壓提高到高于其標(biāo)稱水平才能在 1.85 GHz 下工作,這樣會(huì)消耗更多的功率。使用電源芯片,它也可以達(dá)到既定的時(shí)鐘頻率并消耗更少的功率。
Graphcore Bow AI 加速器使用 3D 芯片堆疊將性能提升 40%。
Bow 的制造工藝是獨(dú)一無二的。大多數(shù) 3D 堆疊是通過將一個(gè)小芯片粘合到另一個(gè)小芯片上來完成的,其中一個(gè)仍然在晶圓上,稱為晶圓上芯片 [參見上面 AMD 的 Zen 3]。相反,Bow 使用了臺(tái)積電的「晶圓 - 晶圓」,其中一種類型的整個(gè)晶圓與另一種類型的整個(gè)晶圓鍵合,然后切割成芯片。
Graphcore 首席技術(shù)官 Simon Knowles 表示,這是市場(chǎng)上第一款使用該技術(shù)的芯片,它使兩個(gè)裸片之間的連接密度高于使用晶圓芯片工藝所能達(dá)到的密度。
BOW-2000
盡管電力傳輸小芯片沒有晶體管,但不久的將來可能會(huì)出現(xiàn)。Knowles 說,僅將這項(xiàng)技術(shù)用于電力傳輸只是第一步,在不久的將來,它會(huì)走得更遠(yuǎn)。
了解更多請(qǐng)參考:https://spectrum.ieee.org/graphcore-ai-processor
英特爾 Ponte Vecchio 超級(jí)計(jì)算機(jī)芯片
Aurora 超級(jí)計(jì)算機(jī)旨在成為美國首批突破 exaflop 障礙的高性能計(jì)算機(jī) (HPC) 之一——每秒 10 億次高精度浮點(diǎn)計(jì)算。為了讓 Aurora 達(dá)到這些性能,Ponte Vecchio 將 47 塊硅片上超過 1000 億個(gè)晶體管封裝到一個(gè)處理器中。英特爾同時(shí)使用 2.5D 和 3D 技術(shù),將 3,100 平方毫米的硅片(幾乎等于四個(gè) Nvidia A100 GPU)壓縮到 2,330 平方毫米的空間中。
英特爾Ponte Vecchio處理器將47個(gè)小芯片集成到一個(gè)處理器中。
每個(gè)Ponte Vecchio實(shí)際上是兩組鏡像芯片,使用英特爾的2.5D集成技術(shù)Co-EMIB連接在一起,Co-EMIB在兩個(gè)3D小芯片堆棧之間形成高密度互連的橋梁。「橋」本身是嵌入封裝有機(jī)基板中的一小塊硅,硅上互連線的密度可以是有機(jī)基板上的兩倍。Co-EMIB die 還將高帶寬內(nèi)存和 I/O 小芯片連接到 base tile(最大的小芯片,其他芯片都堆疊在其上)。
base tile 使用英特爾的 3D 堆疊技術(shù),稱為 Foveros,在其上堆疊計(jì)算和緩存小芯片。該技術(shù)在兩個(gè)芯片之間建立了密集的 die-to-die 垂直連接陣列,這些連接是 36 微米。信號(hào)和電源通過硅通孔進(jìn)入這個(gè)堆棧,較寬的垂直互連直接穿過硅的大部分。
Foveros
八個(gè)計(jì)算tile、四個(gè)緩存tile和八個(gè)用于給處理器散熱的空白tile都連接到base tile上。base tile本身提供緩存內(nèi)存和允許計(jì)算tile訪問內(nèi)存的網(wǎng)絡(luò)。
英特爾研究員Gomes表示:這一切都不容易,Ponte Vecchio 在良率管理、時(shí)鐘電路、熱調(diào)節(jié)和功率傳輸方面都進(jìn)行了創(chuàng)新。例如,英特爾工程師選擇為處理器提供高于正常電壓(1.8 伏)的電壓,以便電流足夠低以簡化封裝。base tile 中的電路將電壓降低到接近 0.7 V 以用于計(jì)算 tile,并且每個(gè)計(jì)算 tile 必須在 base tile 中有自己的電源域。關(guān)鍵是新型高效電感器,稱為同軸磁性集成電感器。因?yàn)檫@些都內(nèi)置在封裝基板中,所以在向計(jì)算 tile 提供電壓之前,電路實(shí)際上在 base tile 和封裝之間來回移動(dòng)。
Gomes 表示,從 2008 年的第一臺(tái) petaflop 超級(jí)計(jì)算機(jī)到今年的 exaflops 用了 14 年,先進(jìn)的封裝技術(shù)如 3D 堆疊,將有利于提高計(jì)算能力。?