隨著人工智能和大數(shù)據(jù)等尖端技術(shù)的加速發(fā)展,全球主要科技企業(yè)正在探索創(chuàng)新方法,以快速處理增速迅猛的數(shù)據(jù)量。相較于傳統(tǒng) DRAM,HBM 在數(shù)據(jù)處理速度和性能方面都具有顯著優(yōu)勢(shì),有望獲得業(yè)界廣泛關(guān)注并被越來越多地采用。
SK海力士同時(shí)表示,英偉達(dá)(NVIDIA)在近日完成了對(duì) SK海力士 HBM3 樣品的性能評(píng)估。SK海力士將向英偉達(dá)系統(tǒng)供應(yīng) HBM3,而該系統(tǒng)預(yù)計(jì)將在今年第三季度開始出貨。SK海力士也將按照英偉達(dá)的計(jì)劃,在今年上半年增加 HBM3 產(chǎn)量。
備受期待的英偉達(dá) H100 被認(rèn)為是當(dāng)前全球范圍內(nèi)最大、性能最強(qiáng)的加速器。SK海力士的 HBM3 帶寬可達(dá) 819GB/s,有望增強(qiáng)加速計(jì)算的性能。這個(gè)帶寬相當(dāng)于能夠在每秒傳輸 163 部全高清(Full-HD)電影(每部影片約 5GB)。
SK海力士社長(事業(yè)總管)盧鐘元表示,與英偉達(dá)的緊密合作使得SK海力士在高端 DRAM 市場(chǎng)穩(wěn)獲一流的競(jìng)爭力。“我們的目標(biāo)是通過持續(xù)、開放式協(xié)同合作,成為洞悉和解決客戶需求的解決方案提供商(Solution Provider)。”
HBM 3的好戲,才剛剛開始
在某種程度上,計(jì)算系統(tǒng)中唯一真正重要的是它的內(nèi)存發(fā)生了怎樣的變化,在某種程度上,這就是讓計(jì)算機(jī)像我們這樣的原因。世界上所有的計(jì)算能力,或者數(shù)據(jù)的操作或轉(zhuǎn)換類型,都沒有創(chuàng)建新數(shù)據(jù)那么重要,然后將新數(shù)據(jù)存儲(chǔ)在內(nèi)存中,這樣我們就可以以某種方式高速使用它。
系統(tǒng)及其內(nèi)存的問題在于,您無法擁有一個(gè)擁有一切的內(nèi)存子系統(tǒng)。
您可以將 3D XPoint 變成一種主內(nèi)存,正如英特爾在其 Optane PMem DIMM 外形中所展示的那樣;PMEM 中的這種持久性很有用,但您最終會(huì)得到一個(gè)比閃存更昂貴且比普通 DRAM 慢的內(nèi)存,因此它不能真正完全替代任何一個(gè),但它可以用作內(nèi)存層次結(jié)構(gòu)中的另一層——并且在某些系統(tǒng)和存儲(chǔ)。
使用普通的 DRAM,你可以為應(yīng)用程序和數(shù)據(jù)構(gòu)建一個(gè)大的內(nèi)存空間,但它可能會(huì)變得昂貴并且?guī)挷皇呛艽�。�?nèi)存速度的提高和 CPU 上控制器數(shù)量的增加有所幫助,但延遲仍然相對(duì)較高(至少與 HBM 堆疊內(nèi)存相比),并且?guī)掃h(yuǎn)不及 HBM 高。該行業(yè)確實(shí)知道如何大批量生產(chǎn) HBM,因此產(chǎn)量較低且單位成本較高。
DDR DIMM 無處不在——現(xiàn)在已經(jīng)有五代了——它們的大規(guī)模生產(chǎn)意味著即使帶寬受到挑戰(zhàn),它也是低成本的。DDR SDRAM 內(nèi)存由 JEDEC 于 1998 年指定,并于 2000 年廣泛商業(yè)化,首次推出時(shí)的低頻率為 100 MHz,最高頻率為 200 MHz,每通道的帶寬在 1.6 GB/秒和 3.1 GB/秒之間。通過過去幾年的DDR迭代,內(nèi)存時(shí)鐘速率、I/O 總線時(shí)鐘速率和內(nèi)存模塊的數(shù)據(jù)速率都在增加,容量和帶寬也隨之增加。DDR4 仍然普遍用于服務(wù)器,高端模塊的內(nèi)存運(yùn)行頻率為 400 MHz,I/O 總線速率為 1.6 GHz,數(shù)據(jù)速率為 3.2 GT/秒,每個(gè)模塊的帶寬為 25.6 GB/秒。DDR5 將帶寬翻倍至 51.2 GB/秒,并將每個(gè)記憶棒的最大容量翻倍至 512 GB。
我們的猜測(cè)是,對(duì)于許多設(shè)備來說,這種容量很大,但帶寬根本不夠用。因此,在可預(yù)見的未來,我們最終會(huì)在節(jié)點(diǎn)內(nèi)部實(shí)現(xiàn)拆分內(nèi)存層次結(jié)構(gòu)并靠近計(jì)算引擎。或者,更準(zhǔn)確地說,客戶必須在具有 DDR5 內(nèi)存和 HBM3 內(nèi)存的設(shè)備之間進(jìn)行選擇,他們可能會(huì)在系統(tǒng)內(nèi)和集群中的節(jié)點(diǎn)之間混合使用它們,其中一些可能具有 Optane 或其他類型的 ReRAM 或 PCM 持久內(nèi)存在適當(dāng)情況下。
跨主要內(nèi)存類型和速度的編程對(duì)于混合內(nèi)存系統(tǒng)來說仍然是一個(gè)問題,直到有人創(chuàng)建一個(gè)內(nèi)存處理單元和一個(gè)內(nèi)存管理程序,可以為計(jì)算引擎提供單級(jí)內(nèi)存空間來共享。
或者,公司將使用一種類型的內(nèi)存來緩存另一種�?於莸膬�(nèi)存可以緩存肥而慢的內(nèi)存,反之亦然。因此,在當(dāng)今的許多混合 CPU-GPU 系統(tǒng)中,GPU 內(nèi)存是完成大部分處理的地方,CPU 中的 DDR 內(nèi)存和 GPU 中的 HBM 內(nèi)存之間的一致性主要用于讓 DDR 內(nèi)存發(fā)揮巨大作用GPU 的 L4 緩存——是的,CPU 已被降級(jí)為數(shù)據(jù)管家。相反,對(duì)于支持 Optane DIMM 的 Xeon SP 系統(tǒng),在其中一種模式(也是最容易編程的模式)中,3D XPoint 內(nèi)存被視為慢速主內(nèi)存,機(jī)器中的 DDR4 或 DDR5 DIMM 是一種超級(jí)Optane 內(nèi)存的快速緩存。
正如我們?nèi)ツ?7 月在介紹HBM3 內(nèi)存在今年可用后將對(duì)系統(tǒng)可能意味著什么時(shí)指出的那樣,我們認(rèn)為 HBM 內(nèi)存將用于各種系統(tǒng),最終將變得更加普遍,因此更便宜。畢竟,我們并不都仍然使用核心內(nèi)存,而且很多工作負(fù)載都受到內(nèi)存帶寬的限制,而不是計(jì)算。這就是為什么我們相信會(huì)有更窄的 512 位總線和無插入器的 HBM 版本以及具有 1,024 位總線和插入器的版本。
使用 HBM 內(nèi)存(以及英特爾和美光曾經(jīng)創(chuàng)建并用于其至強(qiáng)融核加速器的現(xiàn)已失效的混合內(nèi)存立方體堆疊內(nèi)存),您可以堆疊 DRAM 并將其鏈接到非常接近計(jì)算引擎的非常寬的總線并將帶寬提高許多因素,甚至比直接連接到 CPU 的 DRAM 上看到的帶寬高一個(gè)數(shù)量級(jí)。但是這種快速的 HBM 內(nèi)存很薄,而且價(jià)格也相當(dāng)昂貴。它本質(zhì)上更昂貴,但內(nèi)存子系統(tǒng)的價(jià)格/性能可能會(huì)更好。
與 DDR 主存相比,HBM 成本多少我們并不清楚,但 Rambus IP 內(nèi)核產(chǎn)品營銷高級(jí)總監(jiān) Frank Ferro 知道與 GDDR 內(nèi)存相比它的成本是多少。
“GDDR5 與 HBM2 的加法器的價(jià)格差距大約是 4 倍,”Ferro 告訴The Next Platform。“原因不僅在于 DRAM 芯片,還在于中介層和 2.5D 制造的成本。但是 HBM 的好消息是您可以獲得最高的帶寬,您可以獲得非常好的功率和性能,并且您可以獲得非常小的占地面積。你必須為這一切付出代價(jià)。但 HPC 和超大規(guī)模社區(qū)并沒有特別受成本限制。他們當(dāng)然想要更低的功率,但對(duì)他們來說,一切都與帶寬有關(guān)。
Nvidia 知道 HBM3 內(nèi)存的好處,并且是第一個(gè)在上個(gè)月宣布的“Hopper”H100 GPU 加速器中將其推向市場(chǎng)的公司。在 JEDEC 在 1 月份推出最終 HBM3 規(guī)范之后,這非常熱門。
HBM3 規(guī)范的出臺(tái)速度比 SK Hynix 去年 7 月在其早期工作中所暗示的要快,當(dāng)時(shí)它表示預(yù)計(jì)每個(gè)堆棧至少有 5.2 Gb/秒的信號(hào)傳輸和至少 665 GB/秒的帶寬。
HBM3 規(guī)范要求每針信號(hào)速率從三星實(shí)現(xiàn) HBM2E 時(shí)使用的 3.2 Gb/秒翻倍至 6.4 Gb/秒,HBM2E 是 HBM2 的擴(kuò)展形式,將技術(shù)推向了官方 JEDEC 規(guī)范之外,該規(guī)范設(shè)置了信號(hào)最初的速率為 2 Gb/秒。(有一個(gè)早期的 HBM2E 變體使用 2.5 Gb/秒信號(hào),而 SK 海力士使用 3.6 Gb/秒信號(hào)試圖獲得 HBM2E 優(yōu)于三星的優(yōu)勢(shì)。)
內(nèi)存通道的數(shù)量也從 HBM2 的 8 個(gè)通道增加到 HBM3 的 16 個(gè)通道的數(shù)量翻了一番,并且在架構(gòu)中甚至支持 32 個(gè)“偽通道”,據(jù)此我們假設(shè) DRAM 組之間可能存在某種交錯(cuò),這通常是常見的在高端服務(wù)器主存儲(chǔ)器中完成。HBM2 和 HBM2E 變體可以堆疊 4、8 或 12 個(gè)芯片高的 DRAM,而 HBM3 允許擴(kuò)展到 16 個(gè)芯片高的 DRAM 堆疊。HBM3 的 DRAM 容量預(yù)計(jì)在 8 Gb 到 32 Gb 之間,使用 8 Gb 芯片的四層堆棧產(chǎn)生 4 GB 容量,使用 32 Gb 芯片的 16 層堆棧產(chǎn)生每個(gè)堆棧 64 GB。據(jù) JEDEC 稱,使用 HBM3 內(nèi)存的第一代設(shè)備預(yù)計(jì)將基于 16 Gb 芯片。內(nèi)存接口仍為 1,024 位寬,單個(gè) HBM3 堆棧可驅(qū)動(dòng) 819 GB/秒的帶寬。

因此,使用六個(gè) HBM3 堆棧,理論上一個(gè)設(shè)備可以驅(qū)動(dòng) 4.8 TB/秒的帶寬和 384 GB 的容量。我們想知道擁有如此多帶寬和容量的 Hopper H100 GPU 加速器在成本和散熱方面會(huì)有什么影響。.
由于計(jì)算的上層梯隊(duì)對(duì)內(nèi)存帶寬不耐煩,Rambus 已經(jīng)超越了相對(duì)較新的 HBM3 規(guī)范,最終可能在上圖中被稱為 HBM3E。具體來說,Rambus 已經(jīng)設(shè)計(jì)了可以為 HBM3 引腳驅(qū)動(dòng) 8.4 Gb/秒信號(hào)的信號(hào)電路,并為每個(gè) HBM3 堆棧提供 1,075 GB/秒(是的,1.05 TB/秒)的帶寬。其中六個(gè)堆棧,您可以獲得高達(dá) 6.3 TB/秒的內(nèi)存帶寬。這可以通過定制 HBM3 內(nèi)存控制器和定制 HBM3 堆棧 PHY 實(shí)現(xiàn)。(順便說一下,Rambus 在 HBM2E 上的信號(hào)傳輸速率高達(dá) 4 Gb/秒。)
這樣的帶寬實(shí)際上可能會(huì)保留像 Nvidia Hopper GPU 這樣的計(jì)算設(shè)備,或者未來的谷歌 TPU5 機(jī)器學(xué)習(xí)矩陣引擎,或者選擇你夢(mèng)想中的設(shè)備來提供充足的數(shù)據(jù)。不過,我們對(duì)瓦數(shù)和成本感到不寒而栗。但同樣,如果帶寬是瓶頸,也許在那里投入更多資金并對(duì)一切進(jìn)行液體冷卻是有意義的。
我們期待有人建造這樣一個(gè)野獸,這樣我們就可以看到它的表現(xiàn)并分析它的經(jīng)濟(jì)性。









