×
×

揭秘:美國百億億級超算內部超級互聯技術

2020-02-10 13:04:26 來源:本文由EETOP翻譯自wikichip

在過去的一年中,Cray與美國能源部簽訂了許多極有價值的合同。毫無疑問,Cray贏得了所有三款美國已宣布的下一代百億億次超級計算機-El Capitan,Frontier和Aurora。Aurora計劃在2021年基于英特爾的Sapphire Rapids Xeon CPU和Xe GPU進行開發,并計劃成為美國第一臺百億億級超級計算機。在Aurora之后不久,Frontier也計劃在2021年推出。這是基于AMD的1.5 exaFLOPS超級計算機。2022年下半年推出的第三個系統是1.5 exaFLOPS El Capitan。這三個系統的共同點是它們都基于Cray最新的Shasta計算機系統架構。
 

新的Shasta架構的核心是采用了新的Slingshot互連技術。這是Cray的第八個主要的高性能網絡互連技術,并且已經投入使用了五年多。Slingshot與以前的互連有所不同,因為它將以太網作為基準互連。

Slingshot實際上是建立在標準以太網之上的,這是Cray的第一個。但有一個問題。以太網對于HPC工作負載不是很好。財務它具有較弱的同步機制和較大的報文頭,導致處理小數據包時效率低下。為了解決這些問題,Cray設計了一個自定義的互連,稱為“ HPC以太網”。Cray認為,它將專有HPC網絡的優勢帶入了高度可互操作的以太網標準。但是,毫無疑問,HPC以太網仍然是Cray專有的互連,但是它具有標準的以太網的附加優點,以便為基于標準以太網的設備(例如,存儲和網絡連接的加速器)提供支持。換一種說法,Slingshot交換機首先使用標準以太網協議進行操作,但是當連接的設備支持高級“ HPC以太網”功能時,它將嘗試協商高級功能。此處的目的是允許高級HPC以太網功能在支持該功能的設備(例如其他Slingshot交換機)的網絡中工作,同時與不支持該功能的以太網設備完全互操作。稍后,我們將更詳細地介紹其中一些新增功能,但最大的新增功能是引入更好的特定于HPC的擁塞控制。

Cray使用64端口的的Slingshot交換機建立Slingshot互連。每個端口使用四個56G PAM4通道,速率為200Gbps。

使用Slingshot交換機,Cray使用其dragonfly拓撲構建大型系統。請注意,盡管這是Cray首選的系統拓撲,但Slingshot支持任何數量的拓撲,例如扁平化的butterflies 和fat trees拓撲。Slingshot可以很好地與這些拓撲結構一起使用。dragonfly拓撲的使用很大程度上是受成本推動的。減少較長的光纜,降低了系統的成本。Cray聲稱,系統中多達90%的電纜是廉價的銅纜,而光纜只占10%。
對于那些不熟悉dragonfly拓撲的人來說,它是一個具有三個級別的分層網絡,分別稱為系統,組和路由器。最低層是路由器。對于最大規模的系統,路由器連接到16個端口,剩下48個端口用于互連網。在中間層是組,一個組包含一個路由器。在最大規模的系統中,一組將使用每個路由器中的31個端口將32個路由器完全連接在一起。每個路由器留出17個端口(總共544個),用于在一個全方位網絡中全局連接系統級別的所有組。總共545個組和每組32個路由器,使用dragonfly拓撲的Shasta系統可以擴展到279,040個端點。

羅塞塔(Rosetta)

Slingshot交換機內部是Cray的自定義HPC以太網ASIC交換機Rosetta。Rosetta采用臺積電TSMC)的16 nm工藝實現,功耗高達250W,它是64端口,200 Gbps端口交換機。羅塞塔(Rosetta)采用平鋪式結構。在下圖中所示,有64個圖塊。芯片的參數上有32個圖塊,用于外圍功能塊,例如SerDes,Ethernet Lookup ,MAC / LLR / PCS。芯片中心內的32個圖塊用于所有其他端口功能。請注意,每個圖塊都包含兩個端口。

在內部,該芯片包括32個功能塊,排列成四行乘八列。每個圖塊有兩個交換機端口,因此有32個功能塊,您正在查看完整的64個端口。Rosetta是使用分層交叉交換實現的。每個端口都有自己的行總線,該行總線跨行通信。有一組八列通道連接到該列中的八個端口。由于每個圖塊有兩個交換端口,因此在八列通道集中有兩個。每個圖塊都有一個16輸入8輸出交叉開關。

HPC以太網

我們提到Cray Slingshot實現了稱為HPC以太網的新協議。該協議是由Cray和一家未公開的公司(可能是Broadcom)共同努力實現的。HPC以太網是標準以太網協議的超集,該協議專門針對HPC優化以提高性能和彈性。在內部和交換機的Cray系統中,所有數據包都是HPC以太網數據包,而與網絡邊緣設備的通信是標準以太網數據包。
允許將數據包輕松地從一種形式轉換為另一種形式。以太網的最小幀大小為64字節(18字節報頭+ 46字節有效負載)。HPC以太網擺脫了這一限制,以40字節幀(或32字節加上邊帶)為目標。它改變了報文頭,使其尺寸盡可能減小–減少了前同步碼,刪除了L2報頭。還引入了基于信用的流量控制,該流量控制的設計比現有機制更加有效。為了提高彈性,提供了低延遲FEC,鏈路級重試以容忍瞬態錯誤(針對CRC錯誤在鏈路級進行重傳)以及通道性能下降(例如從4通道變為3通道或3通道降低)。在Cray的分析圖中,下面繪制了消息大小與每秒可發送的百萬個數據包的關系圖,很明顯,與標準以太網相比,HPC以太網由于消息頭小得多而在較小消息大小時效率更高。HPC以太網可以與HDR Infiniband相媲美,后者是另一個非常好的HPC網絡互連。
真正的魔力在于擁塞控制
QoS很好,但現實世界中的工作負載要復雜得多,通常共享相同的流量類別,爭奪可用帶寬。Slingshot的最大進步也許是高級擁塞管理。根據Cray的說法,Slingshot知道系統中每對端點之間正在流動的內容。這使它可以非常快速地檢測到擁塞。這與現有的基于ECN的機制(將擁塞信息發送回源)非常不同,更像是為網絡中的所有內容提供不同的虛擬通道。一旦檢測到有問題的流量來源,Slingshot會回推該流量來源,釋放緩沖區空間。
原文:https://fuse.wikichip.org/news/3293/inside-rosetta-the-engine-behind-crays-slingshot-exascale-era-interconnect/

全部評論

X
上海期货配资