<th id="dfzpi"></th>
        <dd id="dfzpi"></dd><nav id="dfzpi"></nav>

        <span id="dfzpi"></span>
      1. <tbody id="dfzpi"><noscript id="dfzpi"></noscript></tbody>
      2. 首頁|必讀|視頻|專訪|運營|制造|監管|芯片|物聯網|量子|低空經濟|智能汽車|特約記者
        手機|互聯網|IT|5G|光通信|人工智能|云計算|大數據|報告|智慧城市|移動互聯網|會展
        首頁 >> 人工智能 >> 正文

        信通院王蘊韜:大語言模型核心架構演進態勢分析

        2025年6月13日 07:45  信息通信技術與政策  作 者:王蘊韜

        作者:中國信息通信研究院人工智能研究所副總工程師,高級工程師 王蘊韜 

        0   引言

        自Transformer架構提出以來,圍繞其架構的創新一直是產學研各界的研究焦點?傮w來看,對于其注意力機制的補丁式創新和替代性創新成為了主要研究方向。補丁式創新主要采用更為簡單的算子或精度來模擬注意力機制的計算,替代性創新主要通過其他算法替代注意力機制來挖掘上下文關系。除此之外,越來越多回歸循環神經網絡(Recurrent Neural Network,RNN)的算法架構及對于多層感知機(Multi-Layer Perceptron,MLP)架構的創新百花齊放,為未來算法架構的創新探索打下了堅實基礎。

        1  Transformer的不可能三角

        Transformer架構的有效性很大程度上來源于注意力(Attention)機制,而注意力機制的特點在于其ON2的復雜度與多頭機制的并行性,這樣在詞元(Token)生成類任務上,由于每步的二次復雜度和KV緩存的內存限制,在推理過程中往往表現出較低的效率。如果降低注意力機制的計算復雜度,能夠較好提升推理效率,但這就犧牲了模型精度和效果;基于傳統RNN的模型可以達到較好的效果和高效的推理效率,但由于沒有多頭機制,無法實現高效的并行訓練,因此無法擴大規模。因此,模型架構面臨著一個不可能三角的問題,分別是并行訓練、低成本推理和良好的擴展性能。如何平衡好這三點,成為優化與改進Transformer結構的核心指導思路。

        2  針對Transformer自身的改進

        自2017年Attention is all you need論文發表以來,以Transformer為核心架構的大模型蓬勃發展,總體來看呈現出了兩類架構演進態勢:一類是對Transformer模塊的改進;另一類是對Transformer子層的改進。這些改進主要是針對Transformer原始架構進一步提升上下文能力,減小計算量消耗,提升模型效率及可擴展性。

        2.1  針對Transformer模塊的改進

        針對Transformer模塊的改進主要可以分為5個方向[1]。一是減少內存占用和計算量。對于Transformer的核心優化在于其消耗計算資源的自注意力機制(Self-Attention),目前主要通過減少不必要的計算和數據存儲,優化其計算效率,包括限制注意力的計算范圍,近似原始計算以降低復雜度,對基礎算子進行優化(如TimeMixer++[2]),采用模型壓縮和內存優化技術以及引入其他算法(如殘差自注意力、累積自注意力機制)。在實現這些改進時,需要在計算效率和模型性能之間取得平衡,確保在降低資源消耗的同時,模型的準確性和泛化能力不受顯著影響,代表性架構還包括Lite Transformer[3]、Funnel Transformer[4]、DeLighT[5]、RealFormer[6]等。二是優化自適應計算時間。Transformer中順序計算的次數與輸入大小無關,而只取決于層數,這使得它在計算上不具備通用性或圖靈不完備。Transformer對所有輸入都使用相同的計算量將降低計算效率。因此以Universal Transformer[7]為代表的架構應運而生,其特點是模型可以根據輸入數據的復雜程度,用RNN網絡來動態學習并決定模型在每個位置上迭代的次數,同時引入了一個停頓概率,來判斷模型在每個位置計算是否需要繼續迭代,直到滿足某個閾值條件為止,代表性架構還包括Conditional Computation Transformer[8]、DeeBERT[9]。三是使用循環或分層的結構。如Transformer-XL[10]通過引入相對位置編碼和段落級別的循環機制,能夠更好適應不同長度輸入,將前一段隱狀態作為當前段輸入,以此形成循環機制,既能夠更好保持長序列信息,又能夠更好利用段落的上下文信息,通過循環機制有效解決了標準Transformer在處理長序列時的局限性,代表性架構還包括Compressive Transformer[11]、Memformer[12]。又如Hi-Transformer[13]使用了分層的設計方法,將輸入數據分成不同的層次進行處理,通過在較高層次上聚合信息,使模型能夠更好地捕捉全局上下文,代表性架構還包括HIBERT[14]、Vision Transformer[15]、TimeSformer[16]。四是使用其他方式對Transformer架構進行優化,如可微分架構搜索(Differentiable Architecture Search)[17]使用了神經架構搜索架構搜索最佳網絡結構,又如Macaron Transformer[18]通過自注意力層和前饋網絡層交替排列的方式實現特征提取和上下文建模之間更好的融合,代表性架構還包括Sandwich Transformer[19]。

        2.2  針對Transformer子層的改進

        總體來看,Transformer模塊一般包括4個子層:位置編碼;多頭注意力(Multi-head attention);層歸一化的殘差連接;位置前饋網絡。

        目前針對多頭注意力機制的改進較多,主要聚焦于降低注意力機制的計算復雜度,或改變注意力機制使其能夠學習更多的內容。許多方法可以降低注意力機制的復雜性[20]。一是采用低階近似值的方式降低注意力機制計算復雜度,如Linformer[21]、Performer[22]、Nystromformer[23]、Synthesizer[24]。二是使用稀疏的注意力機制,將注意力機制的復雜性降低到序列長度的線性,如Longformer[25]通過固定給定令牌可以參加的位置來增加稀疏性。又如Reformer[26],通過對輸入令牌進行排序或聚類來引入可學習的稀疏性,代表性架構還包括Big Bird[27]、Performer[28]、Routing Transformer[29]。三是改進多頭注意力機制,如注意力頭被允許相互交流或共享信息[30],學習最佳的注意力跨度,并在不同的注意力頭中使用不同的注意力跨度,代表性架構包括Talking-heads Attention[31]、Multi-Scale Transformer[32]、Mixture of Head Attention[33]。

        對于位置編碼來說,目前主要使用了四種位置編碼方式進行優化:絕對位置編碼(如標準變換器的位置編碼);相對位置編碼(例如在Transformer-XL中);具有絕對和相對位置信息的混合編碼(如Roformer[34]);以其他方式提供序列順序信息的隱式編碼(如R-Transformer[35])。

        在殘差連接以及前饋網絡方面,主要修訂包括改變多頭注意力機制和位置前饋網絡后的殘差塊,包括設置層歸一化的位置、用其他方式替換層歸一化、完全刪除層歸一化,或引入逆殘差層以節省內存(用于Reformer)。對于改變位置前饋網絡的方法,包括改變激活函數、增加其表征能力或刪除前饋網絡等也都涉及到了相關的修改。近期英偉達推出了nGPT[36]架構,對包括嵌入、多層感知機(MLP)、注意力矩陣、隱藏狀態等向量全部在超球面上歸一化為單位范數,實現了上下文越長,訓練速度越快。

        3  Transformer與其他架構的結合

        除了對于Transformer自身架構進行調整和完善,產業界和學術界也都圍繞提升模型效率、可擴展性及其性能做了架構創新,采用了Transformer架構與其他架構混合的方式進行探索,以發揮各自的優勢,提升模型的整體性能。

        3.1  CNN與Transformer的結合

        盡管Transformer在自然語言處理中表現出色,但在圖像處理中,卷積神經網絡(Convolutional Neural Network,CNN)在特定任務上仍然具有效率和結構優勢;旌霞軜嬂肨ransformer的長程依賴處理能力以及CNN的局部特征提取能力,在需要同時關注細節和全局信息的任務中取得了優異表現。如Swin Transformer引入了局部注意力機制,與卷積操作進行結合,表現了良好的擴展性和效率;視覺Transformer(Vision Transformer, ViT)將圖像劃分為小塊,然后使用Transformer處理,以捕獲全局的圖像特征;Conformer在語音識別中,將CNN和Transformer結合,既能提取局部特征,又能建模長距離依賴;ConvNeXt使用改進的卷積操作和網絡架構,能夠捕捉長距離依賴關系,實現全局信息的融合,與自注意力機制的功能相似。

        3.2  RNN與Transformer的結合

        盡管Transformer在處理長序列時表現優異,但RNN(尤其是LSTM和GRU)在建模時間序列或動態序列任務上仍具優勢。將RNN的動態序列建模能力與Transformer的全局依賴能力結合,可能在某些任務上實現突破。如LSTM + Transformer架構作為一種混合深度模型,近年來在學術界和工業界都受到了極大的關注,該混合架構在序列分析任務上取得了絕佳表現,在文本生成、機器翻譯、時間序列預測等多個領域取得了突破性進展,架構如BiLSTM-Transformer[37],以及本文第二部分提到的Transformer-XL和Universal Transformer,包括更早些時候如2019年提出的R-Transformer、Compressive Transformer等都是代表性案例,同時如RNN + Transformer架構在教學系統應用[38]、神經網絡機器翻譯[39]、語音識別[40]等都取得了優異表現。

        3.3  GNN與Transformer的結合

        圖神經網絡(Graph Neural Networks, GNN)在處理圖結構數據(如社交網絡、知識圖譜、分子結構等)方面具有獨特優勢,并逐漸發展出一些適合擴展到大模型的架構。Transformer可以擴展GNN的感知范圍,GNN可以幫助Transformer捕捉復雜的圖結構信息,并有效從相鄰節點聚合信息。如圖注意力網絡(Graph Attention Networks,GAT)引入了圖數據的注意力機制,能夠讓節點動態調整其鄰居的重要性,類似于Transformer的注意力機制,但適用于圖結構。隨著數據規模的擴大,GAT的改進模型,如Graphormer、圖變換網絡(Graph Transformer Network,GTN)不斷在處理大規模復雜圖數據上取得進展。

        3.4  混合專家系統

        混合專家模型(Mixture of Experts, MoE)指將多個子模型(專家模型)組合起來的架構,可以在處理復雜任務時根據輸入的不同特征動態選擇激活某些專家子模型。這種架構特別適合大規模分布式系統。如GShard和Switch Transformer模型,通過引入大量的專家子模型,根據輸入動態選擇活躍的專家,極大地提升了模型容量和性能。又如早期的稀疏門控專家混合模型(Sparsely-Gated Mixture of Experts),通過稀疏激活的方式來僅調用一部分專家網絡,減少計算資源的消耗。近期出現的混合專家統一轉換器(Mixture-of-Experts Universal Transformers,MoEUT)[41]允許統一轉換器(Universal Transformers,UT)以計算和內存高效的方式進行擴展,解決了UT基礎計算參數比問題。隨著計算資源和模型規模的增加,MoE的架構可能成為未來大模型架構的一個重要方向。

        4  非Transformer架構的算法創新

        自2022年以來,也出現了一些新的非Transformer的算法和架構,主要創新點在于對于注意力機制的替代,完全脫離了Transformer架構中最為核心的QKV及前饋神經網絡(Feed-Forward Neural Network,FFN)的算法體系,同樣得到了學術界及產業界的關注,甚至在某些領域已經取得了超過Transformer架構的性能表現。

        4.1  回歸RNN架構的創新

        RNN架構憑借強大的順序和上下文感知能力曾在各類任務上表現驚艷,但受到反向訓練瓶頸,因規模定律(Scaling Law)而跌落神壇,但如RWKV、Mamba、xLSTM等RNN衍生模型接連出現,在多項任務中取得了超過Transformer的優異表現。

        RWKV[42]模型將RNN的時間遞歸特性與Transformer的并行計算能力相結合。它采用類似RNN的結構,但在訓練和推理時具備Transformer級別的性能,能夠高效處理長序列數據。RWKV在開源社區受到熱烈關注。一些開發者開始在自然語言處理任務中應用RWKV,以驗證其在實際場景中的性能和效率。

        狀態空間模型(State Space Model,SSM)[43]利用連續時間的線性動態系統,通過遞歸和卷積操作,高效建模長序列數據。S4模型是其中的代表,采用特殊的參數化方法,使得模型在處理長序列時既高效又穩定。SSM和S4在語音識別、時間序列預測等任務中表現出色,受到學術界的重視。一些研究者開始將其應用于自然語言處理等領域。S5模型是對S4的改進,進一步優化了狀態空間模型的計算效率和穩定性。通過結合循環、卷積和連續時間模型的優勢,S5能夠高效并行地處理超長序列數據。

        Mamba架構[44]受益于SSM的思想,在S4的基礎上增加了選擇機制,因此Mamba架構有時也被稱為S6。它通過高效的自注意力機制、層次化特征提取和適應性計算來減少計算復雜度和內存占用,同時增強對輸入序列的理解能力。與傳統Transformer相比,Mamba在計算效率和性能上都有顯著提升,尤其在自然語言處理和計算機視覺任務中表現優越。該架構已在學術界和產業界獲得關注并應用于多種復雜任務。

        xLSTM架構[45]采用更復雜的門控結構,提高了對輸入、遺忘和輸出信息的管理能力,有效解決了RNN可能的梯度消失問題,同時它引入了選擇性記憶機制,允許模型在每個時間步選擇性地更新狀態,而并非強制更新所有狀態,同時該架構允許一定程度的并行計算,提升了處理長序列時的計算效率。與Transformer相比,xLSTM需要更少的計算資源,因此對于實時或資源受限的應用場景更為合適。

        近期,Bengio團隊對傳統的兩種RNN架構LSTM和GRU進行了大刀闊斧的改造,從中誕生了兩個新模型:minLSTM和minGRU[46],通過從其輸入、遺忘和更新門中刪除其隱藏的狀態依賴關系,將不再需要反向傳播計算,同時二者使用的參數比傳統版本大量減少,且在訓練期間能夠實現完全的并行化(長度為512序列速度提高了175倍,長度為4 096序列速度提高了1 300倍),實現了和Mamba類似的效率。

        4.2  非注意力機制的創新

        Hyena Hierarchy[47]是一種基于長距離卷積的序列建模方法,旨在替代Transformer中的注意力機制。它通過分層的卷積操作,能夠高效捕獲序列中的長程依賴關系,同時顯著降低計算復雜度和內存占用。Hyena在學術界引起了廣泛關注,被認為是可能替代Transformer的高效架構之一。目前,該模型正處于研究和實驗階段,實際應用還在探索中。

        RetNet[48]引入了保留機制(Retention Mechanism),作為Transformer中自注意力機制的替代。該機制通過參數化的指數衰減函數,隱式地捕獲序列中的依賴關系,具有線性計算復雜度和更好的擴展性。RetNet由Meta AI提出,作為一種新興的序列建模架構,引起了學術界的興趣。目前,研究者們正對其在大規模語言模型中的性能進行評估。

        MLP-Mixer[49]是谷歌公司在2021年提出的模型,但在2022年及以后仍有廣泛的研究和應用。該模型完全基于MLP,沒有使用卷積或自注意力機制。MLP-Mixer通過交替應用Token-Mixing和Channel-Mixing層,能夠在整個序列范圍內混合信息,捕捉長距離依賴關系,實現了與自注意力機制類似的全局信息交互。

        ConvMixer[50]將卷積操作與MLP-Mixer架構相結合,提出了一種純卷積的模型,能夠在不使用自注意力機制的情況下達到與Transformer類似的性能。該模型通過對圖像進行分塊并應用深度卷積,實現高效的特征提取和融合。ConvMixer在圖像分類任務中取得了競爭性的結果,引起了計算機視覺領域的興趣。一些研究正在探索其在其他任務和領域中的應用潛力。

        FNet[51]同樣由谷歌公司于2021年提出,使用傅里葉變換替代了自注意力機制。模型通過對輸入序列應用二維快速傅里葉變換,將時間域的信息轉換到頻域。在傅里葉變換后,應用非線性激活和前饋網絡,豐富特征表示。傅里葉變換具有全局性,可以快速捕捉序列中所有位置之間的關系,實現在頻域內的全局信息交互,從而替代自注意力機制。

        總體來看,非Transformer架構之所以能夠實現與自注意力機制相同的功能,一是在于采用了不同算法實現了全局信息交互,這些模型通過傅里葉變換、長卷積、跨位置的MLP等方式,實現了在序列中全局范圍的信息混合和交互,能夠捕捉到長距離的依賴關系。二是能夠實現相較自注意力機制更為簡單的計算方式。相比自注意力機制的O(n2)時間復雜度,這些模型采用了O(n\logn)或O(n)的計算方式,提高了對長序列的處理效率。三是能夠有效捕捉長距離依賴關系。通過遞歸、卷積和頻域轉換等方法,這些模型能夠有效地對序列中遠距離元素之間的關系進行建模,與自注意力機制的核心功能相當。四是能夠實現模型參數的壓縮和優化。上述模型采用參數共享、分層結構等方式,減少模型參數數量,降低計算和存儲成本。

        4.3  多層感知機架構的創新

        柯爾莫哥洛夫-阿諾爾德網絡(Kolmogorov-Arnold Network,KAN)[52]是基于柯爾莫哥洛夫-阿諾爾德超越定理的一種神經網絡架構。該定理由蘇聯數學家安德雷·柯爾莫哥洛夫和他的學生弗拉基米爾·阿諾德提出,指出任何多元連續函數都可以表示為一系列一元連續函數的有限組合。這為神經網絡的構建提供了理論基礎,使得可以通過一元函數的組合來逼近任意復雜的多元函數。根據萬能逼近定理,為了提升模型精度,需要不斷提升模型的寬度,如果需要做出一個無窮精度的模型,則需要訓練一個無窮寬度的網絡,這顯然是不可行的。KAN網絡使用一元函數的組合來逼近多元函數的方法,相當于提出了一個用有限大小網絡實現無窮精度模型的方式,如果說多層感知機是對大腦中的神經元模仿,那么KAN更像是視網膜中神經元的模仿,其節點和節點間鏈接與傳統多層感知機網絡正好顛倒了過來。目前為止,KAN網絡可以僅通過三層架構方式就擬合絕大部分復雜函數,但這只是理論數據,尚未有實驗數據就KAN與Transformer架構進行對比。

        5  大語言模型架構未來發展淺析

        預測下一個Token是否就能實現通用智能的論斷仍存在爭論,規模定律還能延續多久也難以判斷,但可以看到的是,“分久必合,合久必分”的態勢再次得到了印證,收斂至Transformer的算法架構再次呈現了發散態勢。

        中短期來看,預訓練大模型路線將持續收獲規模定律(Scaling Law)紅利。正如薩頓所說,以算力提升模型水平仍有較大的探索空間。隨著RNN、Transformer等新老架構的不斷革新,更為精細經濟的尺度定律將平衡好參數、數據及算力的關系,在保持性能的基礎上有效降低參數規模,從而降低計算成本。

        長期來看,非Transformer的其他人工智能技術創新同樣更需要重視。人工智能在問題求解、知識推理和規劃、不確定知識和不確定推理、溝通、感知和行動等領域也同樣取得了重要進展。在大模型之前出現的眾多算法,如強化學習(2015年)、進化算法(2002年)、記憶增強網絡(2014年)、膠囊網絡(2017年)、元學習(2017年)、持續學習(2017年)、認知架構(1990年)、生物啟發計算模型(2015年)等概念也在各自領域發揮著關鍵作用。隨著Transformer算法的發散,能夠持續發揮規模定律的新架構有較大概率仍通過對已有架構的創新融合來實現,過于超前的架構難以形成學術與產業的可持續閉環,也無法與已有計算設施高效銜接,但同樣需要注意的是,不同于傳統數字芯片的模擬新計算范式或創新提速,光電計算、量子計算、生物計算等其他計算范式探索也將邁出堅實步伐。

        6  結束語

        基于Transformer架構的補丁式創新主要涌現于架構剛提出時期,近兩年則主要聚焦于注意力機制以及多層感知網絡的替換式創新,重新回歸改進后能夠并行計算的RNN架構也成為近期研究熱點。除架構創新外,在推理階段依托強化學習思維鏈增加推理能力,或通過提升模型精度等方式,為繼續收獲規模定律提出了短期新思路,但實現通用人工智能路徑萬千,未來其他尚未被工業界驗證的“隱形賽道”架構仍需更多理論研究和實踐探索。

        編 輯:章芳
        飛象網版權及免責聲明:
        1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
        2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
        3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
        本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
        推薦新聞              
         
        人物
        韋樂平:大模型時代將開啟新一波“光進銅退”
        精彩視頻
        飛象趣談第二十八期!織網六載,智聯萬物,中國5G牌照發放六周年
        英雄灣的“智”變,探訪AI應用標桿示范村
        卡奧斯馮興智:AI賦能工業互聯網,重塑全球智造新生態
        藍卓數字科技陳玉龍:以“1+2+N”架構引領工業智能新未來
        精彩專題
        2025工業互聯網大會
        2025世界電信和信息社會日大會
        第八屆數字中國建設峰會
        通信產業2024年業績盤點
        關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
        CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
        京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
        公司名稱: 北京飛象互動文化傳媒有限公司
        未經書面許可,禁止轉載、摘編、復制、鏡像
        日韩Av中文字幕丆