商傳媒|林昭衡/綜合外電報導
隨著人工智慧(AI)技術快速發展,大型語言模型(LLM)的規模持續擴大,例如Meta推出的Llama模型已達2兆個參數。然而,模型增大不僅提升了能力,也帶來能源消耗與運算時間的大幅增加,導致碳足跡問題日益嚴重。
為解決這些挑戰,目前業界普遍傾向使用較小型模型或採用低精度數字來處理模型參數。然而,《Aol.com》報導指出,另一個潛力巨大的途徑是優化AI模型中的「零值」運算,這便是所謂的「稀疏性」(sparsity)。稀疏性是指模型參數中,大多數數值為零或極接近零,若能跳過這些零值的計算與儲存,將能顯著節省運算資源。
儘管現行的多核心中央處理器(CPU)與圖形處理器(GPU)未能充分利用稀疏性,但產業內已有多家公司致力於加速稀疏機器學習的硬體開發。例如,蘋果公司(Apple)在其A14與M1晶片中,已透過支援陣列指標存取模式,加速了非連續記憶體查找。Cerebras也展示其Cerebras’s Wafer Scale Engine能在LLM上達到高達70%的稀疏性。Meta的Meta’s Training and Inference Accelerator (MTIA) v2版本,則宣稱在稀疏計算效能上較v1提升了七倍。
史丹佛大學研究團隊開發了一款名為Onyx的硬體加速器,為解決稀疏性問題帶來了關鍵進展。Onyx基於粗粒度可重構陣列(CGRA)架構,是首款能同時高效處理稀疏與稠密運算的可程式化加速器。該晶片平均能耗僅為CPU的七十分之一,運算速度則平均提升八倍。Onyx能在不同稀疏程度的計算中配置不同的運算方式,實現高效能與低能耗,並能配置以加速稠密應用,類似於GPU的功能。
這項技術不僅能提升AI的效能與能源效率,也將開創新的演算法研究領域,進一步優化AI發展。史丹佛大學團隊正著手開發Onyx的下一代晶片,旨在支援更多元的運算類型,並提升稀疏與稠密加速器架構在晶片上的整合效率,以應對日益增長的AI模型運算成本與環境影響。







