圖:螞蟻集團(tuán)一直在致力于提高大語(yǔ)言模型的訓(xùn)練效率,并突破這一限制。
【大公報(bào)訊】綜合中國(guó)基金報(bào)、鳳凰網(wǎng)報(bào)道:螞蟻集團(tuán)使用國(guó)產(chǎn)芯片開發(fā)了一種訓(xùn)練人工智能模型的技術(shù),可將成本降低20%。近期,螞蟻集團(tuán)Ling團(tuán)隊(duì)發(fā)表了最新的技術(shù)成果論文《無(wú)需高級(jí)GPU即可擴(kuò)展3000億參數(shù)混合專家LING大模型》。論文提到,盡管稠密模型(神經(jīng)網(wǎng)絡(luò)中最為常見(jiàn)的模型之一,每個(gè)神經(jīng)元都與輸入數(shù)據(jù)中的每個(gè)元素相連)取得了顯著進(jìn)展,專家混合(MoE)模型如DeepSeek系列、Qwen系列和MiniMax-01系列等在某些特定任務(wù)中已展現(xiàn)出優(yōu)于傳統(tǒng)稠密模型的性能。
然而,MoE模型的訓(xùn)練通常依賴于高性能計(jì)算資源(例如H100、H800等先進(jìn)AI加速器)。為了給業(yè)界提供一種適用于資源受限場(chǎng)景的模型訓(xùn)練新路徑,論文介紹了兩款開源MoE模型:Ling-Lite與Ling-Plus,在資源成本與模型性能之間取得良好平衡。例如Ling-Plus模型在五種不同硬件配置下完成9萬(wàn)億token的預(yù)訓(xùn)練任務(wù)。若使用高性能硬件設(shè)備訓(xùn)練1萬(wàn)億token,預(yù)計(jì)成本為635萬(wàn)元人民幣;而使用低規(guī)格硬件系統(tǒng)則成本約為508萬(wàn)元,節(jié)省近20%。
分析指,MoE模型的訓(xùn)練通常依賴于如英偉達(dá)所售GPU這類高性能芯片,使得訓(xùn)練成本對(duì)許多中小企業(yè)而言過(guò)于高昂,限制了更廣泛的應(yīng)用。如果螞蟻集團(tuán)研究成果屬實(shí),將表明中國(guó)在人工智能領(lǐng)域正逐步走向自主可控,特別是在尋求成本更低、計(jì)算效率更高的模型架構(gòu)來(lái)應(yīng)對(duì)英偉達(dá)芯片的出口限制。