Groq 的 LPU 提問 AI 代理人…將秒回

輝達平安夜結盟主打用SRAM打造語言處理器(LPU)的AI新創Groq,金額傳高達200億美元,讓SRAM成爲繼高頻寬記憶體(HBM)之後爆紅的記憶體,主因SRAM具備低延遲、低能耗等特性;而輝達與Groq簽訂非獨家授權協議,更爲日後SRAM應用大鳴大放,推廣至更多廠商留下伏筆。

業界分析,Groq摒棄目前蔚爲主流的HBM不用,轉而投向SRAM懷抱,主要在於Groq將SRAM直接擺在計算核心,使得LPU的頻寬高達每秒80TB,足足是GPU的十倍,能耗卻僅需GPU的10%。

另外,根據大語言模型實際測試,LPU每秒生成的符元(token)數高達350,遠超GPU數十個tokens的表現,這在AI代理人(AI agent)應用問世後,將是重要關鍵。

說到HBM,不得不提到AI的根基—海量運算。AI之所以能幫我們做那麼多事,就是在蒐集極其龐大的資料量後,瘋狂進行運算,不斷訓練模型,因此AI才能在面對問題時給出正確的答案,這就離不開HBM的幫忙,HBM能夠存儲大量資料,讓GPU能夠擁有很好的訓練效率。

然而,當場景來到了推論時,HBM的優勢蕩然無存,反而是原本無人問津的SRAM異軍突起,成爲了推論應用的王者。

若是將HBM比喻成一臺大貨車,SRAM就是一輛超級跑車。HBM能夠裝載大量資料(80GB),傳輸至GPU進行大語言模型的訓練,然而就像貨車裝貨與卸貨的過程一般,相當耗費時間,再加上HBM和GPU之間還隔着一段距離,更是無法快速回應。

舉例來說,當我們對ChatGPT提問後,看着文字一個接着一個蹦出來,就如同幼童在牙牙學語的過程一般,無法如成年人那般正常交談。

而Groq的LPU成功解決了這個問題,LPU的高傳輸速度,能在提出問題的瞬間,迅速回答出提問者需要的所有資料,回答速度近乎零延遲,像是真正在與人進行交談。