国产精品久久久久久久久久久久午衣片,国产成人精品男人的天堂网站,熟女一区二区中文字幕,亚洲精品国产精品乱码在线

7nm制程,比GPU效率高,Meta發(fā)布第一代AI推理加速器_全球信息

人們提起 Meta 時(shí),通常會(huì )想到其應用程序,包括 Facebook、Instagram、WhatsApp 或即將推出的元宇宙。但許多人不知道的是這家公司設計和構建了非常復雜的數據中心來(lái)運營(yíng)這些服務(wù)。

與 AWS、GCP 或 Azure 等云服務(wù)提供商不同,Meta 不需要披露有關(guān)其硅芯選擇、基礎設施或數據中心設計的細節,除了其 OCP 設計用來(lái)給買(mǎi)家留下深刻印象。Meta 的用戶(hù)希望獲得更好、更一致的體驗,而不關(guān)心它是如何實(shí)現的。


(資料圖)

在 Meta,AI 工作負載無(wú)處不在,它們構成了廣泛用例的基礎,包括內容理解、信息流、生成式 AI 和廣告排名。這些工作負載在 PyTorch 上運行,具有一流的 Python 集成、即時(shí)模式(eager-mode)開(kāi)發(fā)和 API 簡(jiǎn)潔性。特別是深度學(xué)習推薦模型(DLRMs),對于改善 Meta 的服務(wù)和應用體驗非常重要。但隨著(zhù)這些模型的大小和復雜性的增加,底層的硬件系統需要在保持高效的同時(shí)提供指數級增長(cháng)的內存和計算能力。

Meta 發(fā)現,對于目前規模的 AI 運算和特定的工作負載,GPU 的效率不高,并不是最佳選擇。因此,該公司提出了推理加速器 MTIA,幫助更快地訓練 AI 系統。

MTIA V1

MTIA v1(推理)芯片(die)

2020 年,Meta 為其內部工作負載設計了第一代 MTIA ASIC 推理加速器。該推理加速器是其全棧解決方案的一部分,整個(gè)解決方案包括芯片、PyTorch 和推薦模型。

MTIA 加速器采用 TSMC 7nm 工藝制造,運行頻率為 800 MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2 TFLOPS。它的熱設計功耗 (TDP) 為 25 W。

MTIA 加速器由處理元件 (PE)、片上和片外存儲器資源以及互連組成。該加速器配備了運行系統固件的專(zhuān)用控制子系統。固件管理可用的計算和內存資源,通過(guò)專(zhuān)用主機接口與主機通信,協(xié)調加速器上的 job 執行。

內存子系統使用 LPDDR5 作為片外 DRAM 資源,可擴展至 128 GB。該芯片還有 128 MB 的片上 SRAM,由所有 PE 共享,為頻繁訪(fǎng)問(wèn)的數據和指令提供更高的帶寬和更低的延遲。

MTIA 加速器網(wǎng)格包含以 8x8 配置組織的 64 個(gè) PE,這些 PE 相互連接,并通過(guò)網(wǎng)狀網(wǎng)絡(luò )連接到內存塊。整個(gè)網(wǎng)格可以作為一個(gè)整體來(lái)運行一個(gè) job,也可以分成多個(gè)可以運行獨立 job 的子網(wǎng)格。

每個(gè) PE 配備兩個(gè)處理器內核(其中一個(gè)配備矢量擴展)和一些固定功能單元,這些單元經(jīng)過(guò)優(yōu)化以執行關(guān)鍵操作,例如矩陣乘法、累加、數據移動(dòng)和非線(xiàn)性函數計算。處理器內核基于 RISC-V 開(kāi)放指令集架構 (ISA),并經(jīng)過(guò)大量定制以執行必要的計算和控制任務(wù)。

每個(gè) PE 還具有 128 KB 的本地 SRAM 內存,用于快速存儲和操作數據。該架構最大限度地提高了并行性和數據重用性,這是高效運行工作負載的基礎。

該芯片同時(shí)提供線(xiàn)程和數據級并行性(TLP 和 DLP),利用指令級并行性 (ILP),并通過(guò)允許同時(shí)處理大量?jì)却嬲埱髞?lái)實(shí)現大量的內存級并行性 (MLP)。

MTIA v1 系統設計

MTIA 加速器安裝在小型雙 M.2 板上,可以更輕松地集成到服務(wù)器中。這些板使用 PCIe Gen4 x8 鏈接連接到服務(wù)器上的主機 CPU,功耗低至 35 W。

帶有 MTIA 的樣品測試板

托管這些加速器的服務(wù)器使用來(lái)自開(kāi)放計算項目的 Yosemite V3 服務(wù)器規范。每臺服務(wù)器包含 12 個(gè)加速器,這些加速器連接到主機 CPU,并使用 PCIe 交換機層級相互連接。因此,不同加速器之間的通信不需要涉及主機 CPU。此拓撲允許將工作負載分布在多個(gè)加速器上并并行運行。加速器的數量和服務(wù)器配置參數經(jīng)過(guò)精心選擇,以最適合執行當前和未來(lái)的工作負載。

MTIA 軟件棧

MTIA 軟件(SW)棧旨在提供給開(kāi)發(fā)者更好的開(kāi)發(fā)效率和高性能體驗。它與 PyTorch 完全集成,給用戶(hù)提供了一種熟悉的開(kāi)發(fā)體驗。使用基于 MTIA 的 PyTorch 與使用 CPU 或 GPU 的 PyTorch 一樣簡(jiǎn)單。并且,得益于蓬勃發(fā)展的 PyTorch 開(kāi)發(fā)者生態(tài)系統和工具,現在 MTIA SW ??梢允褂?PyTorch FX IR 執行模型級轉換和優(yōu)化,并使用 LLVM IR 進(jìn)行低級優(yōu)化,同時(shí)還支持 MTIA 加速器自定義架構和 ISA。

下圖為 MTIA 軟件??蚣軋D:

作為 SW 棧的一部分,Meta 還為性能關(guān)鍵型 ML 內核開(kāi)發(fā)了一個(gè)手動(dòng)調整和高度優(yōu)化的內核庫,例如完全連接和嵌入包運算符。在 SW 棧的更高層級可以選擇在編譯和代碼生成過(guò)程中實(shí)例化和使用這些高度優(yōu)化的內核。

此外,MTIA SW 棧隨著(zhù)與 PyTorch 2.0 的集成而不斷發(fā)展,PyTorch 2.0 更快、更 Python 化,但一如既往地動(dòng)態(tài)。這將啟用新功能,例如 TorchDynamo 和 TorchInductor。Meta 還在擴展 Triton DSL 以支持 MTIA 加速器,并使用 MLIR 進(jìn)行內部表示和高級優(yōu)化。

MTIA 性能

Meta 比較了 MTIA 與其他加速器的性能,結果如下:

Meta 使用五種不同的 DLRMs(復雜度從低到高)來(lái)評估 MTIA

此外,Meta 還將 MTIA 與 NNPI 以及 GPU 進(jìn)行了比較,結果如下:

評估發(fā)現,與 NNPI 和 GPU 相比,MTIA 能夠更高效地處理低復雜度(LC1 和 LC2)和中等復雜度(MC1 和 MC2)的模型。此外,Meta 尚未針對高復雜度(HC)模型進(jìn)行 MTIA 的優(yōu)化。

參考鏈接:https://ai.facebook.com/blog/meta-training-inference-accelerator-AI-MTIA/

本文來(lái)源:機器之心,原文標題:《7nm制程,比GPU效率高,Meta發(fā)布第一代AI推理加速器》

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: