訊息平台

跌破眼鏡?中國DeepSeek公布R1訓練成本僅29.4萬美元

商傳媒|記者責任編輯/綜合外電報導

喧騰一時的中國AI新創DeepSeek罕見公開其核心模型訓練細節,根據《路透》報導,DeepSeek在《自然(Nature)》期刊最新發表的論文中指出,其推理導向模型R1僅耗資29.4萬美元即完成訓練,遠低於美國同業動輒上億美元的成本,再度引發業界關注美中在AI賽局中的定位。

論文進一步披露,DeepSeek旗下R1訓練使用512顆輝達(Nvidia)專為中國市場設計的H800晶片,總訓練時間約80小時;DeepSeek補充文件也首度坦承持有輝達A100晶片,運用在研發初期的小模型實驗中。

美國政府之前質疑DeepSeek可能取得受到出口管制的H100晶片,但輝達與DeepSeek均聲稱,正式使用的是合法管道取得的H800晶片。DeepSeek具備A100超算叢集的消息,恐怕將再次引發美方關注。

美國AI龍頭OpenAI執行長阿特曼(Sam Altman)2023年曾指出,其基礎模型訓練成本「遠高於1億美元」,儘管未公布具體數字;但相較於DeepSeek的低成本策略,已大大顛覆外界對AI發展門檻的認知。

DeepSeek今年1月推出低成本模型時,曾一度引發全球科技股大震盪,市場憂心其技術可能動搖輝達等AI巨頭的主導地位。自此之後,DeepSeek創辦人梁文峰便鮮少公開露面,僅偶爾發布產品更新。

此外,針對外界指控DeepSeek透過「模型蒸餾」(model distillation)複製OpenAI成果,DeepSeek尚未正面回應,僅強調蒸餾能降低成本並提升效能,有助擴大AI技術普及。文章中承認部分模型曾基於Meta開源的Llama進行蒸餾,而V3模型的訓練數據中亦包含大量OpenAI生成答案,但稱這屬於「間接獲取」,並非刻意行為。

美國官方與產業界仍對DeepSeek的真實技術來源存疑,但這次公開的低成本訓練數據,勢必將再次引發中國AI是否能以「高效能、低成本」路線,成功縮小與美國AI實力差距的激烈爭論。