人工智能的戰(zhàn)場,正從 " 云端算力壟斷 " 轉(zhuǎn)向 " 終端智能覺醒 ",這是一場更多人能參與、更多變數(shù)存在的普遍競爭。
過去數(shù)月,大模型行業(yè)的認(rèn)知快速刷新,在 DeepSeek 之前,終端設(shè)備受制于功耗、散熱和存儲空間,只能運(yùn)行輕量化模型,而且效果和體驗(yàn)并不好。當(dāng) DeepSeek 通過 " 小參數(shù)大智能 " 的技術(shù)路徑,將百億級模型壓縮進(jìn)終端芯片時,整個行業(yè)開始意識到,端側(cè) AI 的底層邏輯已發(fā)生質(zhì)變。
從資本市場上相關(guān)概念股業(yè)績表現(xiàn)和走勢也可窺見一斑。端側(cè) AI 概念龍頭移遠(yuǎn)通信、美格智能業(yè)績表現(xiàn)亮眼,廣和通市場關(guān)注度同步提升。其中,移遠(yuǎn)通信預(yù)計 2025 年一季度歸母凈利潤 2 億元,同比增長 265.19%,主要受益于物聯(lián)網(wǎng)需求復(fù)蘇及車載、AIoT 場景的拓展,邊緣計算模組及大模型技術(shù)加速落地。美格智能預(yù)計一季度凈利潤范圍取中值為 4600 萬元,同比增長 611%,高算力 AI 模組在智能汽車、無人機(jī)等領(lǐng)域出貨量激增,海外業(yè)務(wù)占比提升至 32%。廣和通雖未明確披露一季度凈利潤,但其股價區(qū)間漲幅達(dá) 25.11%,顯示市場對其 5G 模組及車載業(yè)務(wù)前景的樂觀預(yù)期。
從云端算力來看,頭部大模型廠商的門檻是萬卡集群,甚至十萬卡集群也在規(guī)劃,大模型開始趨于集中,但這部分頭部廠商的預(yù)訓(xùn)練需求不會縮減,反而會增加。與此同時,更多 AI 公司正在投入后訓(xùn)練、推理算力的布局,產(chǎn)業(yè)逐漸達(dá)成共識,未來 AI 算力特別是推理算力會出現(xiàn)千倍的增長,網(wǎng)絡(luò)帶寬會出現(xiàn)百倍增長,存儲需求也會出現(xiàn)千倍增長。
2025 年或是端側(cè) AI 的爆發(fā)元年,算力行業(yè)加速競逐推理算力。
DeepSeek 效應(yīng),大模型重心轉(zhuǎn)向推理
" 端側(cè) AI 目前處在一個最好的時代 ",愛簿智能 CEO 孫玉昆表示,我們認(rèn)為大模型的開源給端側(cè)和邊緣 AI 的發(fā)展帶來了巨大的發(fā)展機(jī)遇。從端側(cè)芯片的發(fā)展來看,不管是算力還是內(nèi)存帶寬都有創(chuàng)新和提升,從模型能力來看,適合端側(cè)運(yùn)行的模型能力突飛猛進(jìn),端側(cè)智能會越來越好,從 AI 普及水平來看,越來越多的人正在使用端側(cè)和邊緣部署大模型的推理,個性化需求越來越多,這些需求在端側(cè)也更容易得到滿足。
DeepSeek 的模型迭代(如 V1 到 V3)仍遵循 Scaling Law,通過增加參數(shù)規(guī)模(如從千億到萬億級)和訓(xùn)練數(shù)據(jù)量提升性能。這一路徑在早期 AI 發(fā)展中普遍存在,例如 GPT 系列模型的參數(shù)爆炸式增長。但隨著模型規(guī)模接近物理極限(如算力、數(shù)據(jù)獲取瓶頸),單純依賴參數(shù)擴(kuò)張的邊際收益遞減,技術(shù)重心逐漸轉(zhuǎn)向推理優(yōu)化和多模態(tài)應(yīng)用,典型代表就是 DeepSeek-R1 通過模型蒸餾降低推理成本。
DeepSeek 推出的 NSA(NativeSparseAttention)機(jī)制,通過優(yōu)化稀疏注意力機(jī)制與硬件適配能力,顯著提升了長上下文任務(wù)的訓(xùn)練和推理速度。在保持與完全注意力模型相當(dāng)性能的前提下,NSA 降低了預(yù)訓(xùn)練成本,并在指令推理任務(wù)中表現(xiàn)更優(yōu)。這一技術(shù)進(jìn)展為復(fù)雜任務(wù)的端側(cè)部署提供了可能性。
阿里云智能集團(tuán)資深副總裁、公共云事業(yè)部總裁劉偉光表示,阿里云開發(fā)新模型最重要的兩個方向,一個在 Reasoning 推理,一個在全模態(tài)融合。在推理方面,大模型未來一定會向越來越強(qiáng)的推理能力演化,強(qiáng)化學(xué)習(xí)不斷提升思維鏈的能力,伴隨著模型內(nèi)生的任務(wù)規(guī)劃、工具使用能力不斷增強(qiáng),大模型會越來越智慧,可以不斷思考更難更高問題,完成更復(fù)雜任務(wù),這是一個重要方向,
" 特別需要強(qiáng)調(diào)一下強(qiáng)化學(xué)習(xí),2025 年我們發(fā)現(xiàn)一個新的重要趨勢,很多客戶都在利用更為強(qiáng)大的基礎(chǔ)大模型做基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練,同時強(qiáng)化學(xué)習(xí)后訓(xùn)練反過來為推理提供重要能力補(bǔ)充,我相信未來會有更多客戶基于強(qiáng)化學(xué)習(xí)做后訓(xùn)練,基于更強(qiáng)大的基模會開發(fā)出更新的、更有價值的 AI 原生應(yīng)用以及 AI Agent。" 他說。
中科曙光方面對鈦媒體 App 表示,DeepSeek 正在引發(fā)算力產(chǎn)業(yè)鏈?zhǔn)椒磻?yīng),不僅大大激發(fā)了模型后訓(xùn)練、推理環(huán)節(jié)算力需求,加快改變 AI 算力結(jié)構(gòu),同時也有助于打破市場對高算力 GPU 的路徑依賴,為國產(chǎn) GPU 加速卡帶來重大機(jī)遇。
無論是面向云端智算中心,還是面向端側(cè)的大模型一體機(jī),針對 GPU 加速卡進(jìn)行軟硬件協(xié)同設(shè)計優(yōu)化,實(shí)現(xiàn)芯片 - 算法 - 模型深度耦合,已成為 AI 基礎(chǔ)設(shè)施的重要創(chuàng)新方向。
" 今年已經(jīng)是 AI 大模型商業(yè)應(yīng)用元年了。" 京華信息科技股份有限公司副總裁李思偉認(rèn)為," 去年我們很糾結(jié),行業(yè)存在一個‘不可能三角’。我們想用大模型更好的智能,就需要付出比較大的成本做部署和訓(xùn)練,但是央國企等客戶優(yōu)先考慮的是安全問題,想要安全就必須私有化部署,私有化部署成本又受不了,部署小參數(shù)的模型又有一點(diǎn)雞肋。前兩年我們?yōu)榭蛻羲龅?AI 項(xiàng)目都會遇到這樣的問題,很多項(xiàng)目因此拖延到現(xiàn)在。"
為什么 DeepSeek 在 B 端或者 G 端落地受政府和企業(yè)的歡迎,就是因?yàn)榻鉀Q了 " 不可能三角 " 的問題,但 DeepSeek 的應(yīng)用還是有很多門檻,比如安全問題,國產(chǎn)化技術(shù)路線等,這不是通過簡單部署可以一次性解決的問題,目前很多一體機(jī)遍地開花,但一體機(jī)一般只能服務(wù)于一個應(yīng)用或者一個業(yè)務(wù)。
端側(cè) AI,越接近上層應(yīng)用問題越多
基礎(chǔ)設(shè)施的穩(wěn)定和高效,是端側(cè) AI 生態(tài)賴以生長的基礎(chǔ)。大模型仍處于產(chǎn)業(yè)發(fā)展的早期階段,技術(shù)的演進(jìn)呈現(xiàn)出上下影響、交替迭代的趨勢,AI 應(yīng)用爆發(fā)對模型性能和模型之下的基礎(chǔ)設(shè)施,以及 AI 應(yīng)用開發(fā)工具,都提出了非常高的要求,這三大均處于高速演進(jìn)過程當(dāng)中,
以中科曙光為例,2025 年 2 月,中科曙光推出 DeepAI 深算智能引擎方案,集成了 GPU 開發(fā)工具套件、AI 基礎(chǔ)軟件棧和大模型應(yīng)用開發(fā)平臺,目的是為了讓國產(chǎn) AI 算力更適用、更好用,賦能從十億級模型端側(cè)推理到千億級模型云端訓(xùn)練全場景需求。
通過全面兼容 CUDA、Rcom 雙棧生態(tài),DeepAI 深算智能引擎支持 2000+ 算子,對標(biāo) CUDA 的算子覆蓋度已超 99%,并可通過手動算子優(yōu)化、編譯優(yōu)化和匯編指令級優(yōu)化,國產(chǎn) GPU 單卡訓(xùn)推性能提升可達(dá) 1 倍以上。
劉偉光表示,全世界的大語言模型幾乎以每兩周為一個時間單位演進(jìn),基礎(chǔ)模型仍然是整個 AI 應(yīng)用生態(tài)最核心的引擎,通過提供深度的推理能力、多模態(tài)理解和交互能力,支持多樣化、高質(zhì)量服務(wù),基于不同類型尺寸模型滿足復(fù)雜、輕型以及更多探索型需求。
" 很多客戶在探索 AI 應(yīng)用過程中發(fā)現(xiàn),支撐大語言模型的基礎(chǔ)設(shè)施能力,特別是推理服務(wù)能力,是保障 AI 應(yīng)用服務(wù)順暢、平滑、穩(wěn)定、高效運(yùn)行的重要基礎(chǔ)設(shè)施,云計算也在慢慢為 AI 所改變,讓所有 AI 訓(xùn)練、推理、應(yīng)用能夠在云基礎(chǔ)設(shè)施上進(jìn)行更穩(wěn)定平滑高效運(yùn)行。"
他還表示,當(dāng)模型能力足夠強(qiáng)大,AI 應(yīng)用呼之欲出的時候,更多客戶需要更完整、更完備的工具鏈基于模型進(jìn)行 AI 應(yīng)用開發(fā),AI 開發(fā)工具是連接大語言模型和真實(shí)應(yīng)用的重要橋梁,客戶需要功能齊全、生態(tài)豐富、靈活部署的工具,加速應(yīng)用開發(fā)。
中科曙光 DeepAI 深算智能引擎也內(nèi)置了 DAP 企業(yè)級全棧 AI 應(yīng)用開發(fā)平臺,提供多模型開放納管、高性能推理服務(wù)、知識融合增強(qiáng)、智能體可視化編排、智能數(shù)據(jù)分析等功能,企業(yè)客戶在國產(chǎn) AI 算力底座可一站式跑通 DeepSeek、阿里 QwQ 等大模型應(yīng)用。
孫玉昆認(rèn)為,面向 AI 的開發(fā)者面臨著兩大核心挑戰(zhàn):一是算力不足,成本高。好的模型可能需要萬卡或者更大規(guī)模的集群,現(xiàn)在海外算力基本上不行,國內(nèi)算力生態(tài)還在共同培養(yǎng)。二是開發(fā)工具鏈支持不足,開發(fā)環(huán)境配置復(fù)雜。端側(cè)和云端的環(huán)境不統(tǒng)一,難以滿足大模型、智能體等應(yīng)用快速迭代的需求。
他補(bǔ)充表示,部署開發(fā)環(huán)境流程煩瑣,很多初學(xué)者就倒在了做人工智能開發(fā)的第一關(guān),大模型都是基于 Linux 開源又穩(wěn)定的系統(tǒng)服務(wù)器訓(xùn)練出來的,很多人工智能的開發(fā)框架基于 Linux 開發(fā),在實(shí)際開發(fā)中,開發(fā)者首先是要完成跨平臺開發(fā),通常需要在其他操作系統(tǒng)上通過虛擬化方式運(yùn)行 Linux,這個過程就會面臨很多問題,比如安裝配置復(fù)雜,兼容性問題,工具鏈和依賴庫的版本差異,這些工具不好導(dǎo)致的問題,不僅增加了開發(fā)的復(fù)雜性,開發(fā)者也消耗了很多無謂的精力。
此外,即使開發(fā)者辛萬苦地把環(huán)境配置好了,但性能和原生 Linux 相比也有差異,不僅是 CPU 計算性能,GPU 的模型訓(xùn)練也有一些損失,用 Windows 電腦做小模型訓(xùn)練的性能不達(dá)標(biāo),用原生 Linux 系統(tǒng)則能實(shí)現(xiàn)更高的性能水平,所以做人工智能開發(fā)必須掌握 Linux。
愛簿智能也推出了自己的 AIBOOK 算力本,該產(chǎn)品以 50TOPS 端側(cè)算力為核心,有意將 AI 算力本和市場已有的 AI PC 區(qū)分開。
在孫玉昆看來,不同于 AIPC,AI 算力本是基于原生 Linux 開發(fā)環(huán)境的端側(cè) AI 開發(fā)工具,與市面主流 AIPC 的主要差異包括基于 Linux 內(nèi)核的 AI 原生操作系統(tǒng),預(yù)裝了各種實(shí)用 AI 應(yīng)用,還預(yù)置了編程開發(fā)環(huán)境和工具,做到 AI 的 " 開箱即用 ",同時具備 " 端云一體 " 的 AI 算力,端側(cè)是指 AIBOOK 本地計算,云側(cè)是摩爾線程夸娥云計算,端云一體組合覆蓋從大模型部署到應(yīng)用、微調(diào)及訓(xùn)練的 AI 開發(fā)全場景。
云還是端,沒有絕對的好與壞
算力在云還是在端,取決于客戶的業(yè)務(wù)需求,相較于以往端側(cè)推理的限制,目前大量高質(zhì)量小模型的涌現(xiàn),讓推理工作負(fù)載再次受到關(guān)注,云端算力和終端算力生態(tài)將長期持續(xù)演進(jìn),兩者并不矛盾,更多是扮演大模型產(chǎn)業(yè)的不同角色,不少廠商也在布局端云一體。
杰文斯悖論告訴我們,技術(shù)效率提升反而會刺激需求擴(kuò)張。例如,DeepSeek 通過 FP8 混合精度訓(xùn)練、動態(tài)稀疏算法等技術(shù)將單次訓(xùn)練成本降低 53%(至 557.6 萬美元),但頭部企業(yè)因此增加并行實(shí)驗(yàn)次數(shù)(從年均 3 次躍升至 28 次),反而推高全球算力芯片采購量。類似現(xiàn)象在能源領(lǐng)域也曾出現(xiàn)(如蒸汽機(jī)效率提升后煤炭消耗激增)。在 AI 領(lǐng)域,推理成本降低將加速應(yīng)用場景泛化(如金融、醫(yī)療、智能制造),最終導(dǎo)致算力總需求增長。
黃仁勛在英偉達(dá) GTC2025 上表示:ChatGPT 是靠預(yù)測下一個 tokens、大概率出現(xiàn)幻覺的生成式 AI,而現(xiàn)在已經(jīng)走進(jìn)了 Deep Research、Manus 這樣的 agentic AI 應(yīng)用,上一個 token 是下一個 token 生成時輸入的上下文、是感知、規(guī)劃、行動的一步步推理,由于每一層計算都不同,所需要的 tokens 會百倍增長。推理模型需要更多的計算,因?yàn)槟P透鼜?fù)雜。R1 的尺寸是 6800 億個參數(shù),它的下一代版本可能有數(shù)萬億個參數(shù)。Agentic AI 應(yīng)用是無數(shù)次調(diào)用類似 DeepSeek-R1 做推理的過程,需要的計算只會更多。
高通發(fā)布的白皮書也提到,AI 推理功能在終端側(cè)的廣泛普及賦能打造了豐富的生成式 AI 應(yīng)用和助手。文檔摘要、AI 圖像生成和編輯以及實(shí)時語言翻譯現(xiàn)在已成為常見功能。影像方面的應(yīng)用可以利用 AI 進(jìn)行計算攝影、物體識別和實(shí)時場景優(yōu)化。
這之后迎來了多模態(tài)應(yīng)用的發(fā)展,這類應(yīng)用結(jié)合多種數(shù)據(jù)類型(文本、視覺、音頻和傳感器輸入),以提供更豐富、更具情境感知能力且更加個性化的體驗(yàn)。高通 AI 引擎結(jié)合了定制 NPU、CPU 和 GPU 的能力,能夠在終端側(cè)優(yōu)化此類任務(wù),使 AI 助手能夠在不同溝通模式間切換,并生成多模態(tài)輸出。
智能體 AI(Agentic AI)是下一代用戶交互的核心。AI 系統(tǒng)能夠通過預(yù)測用戶需求,并在終端和應(yīng)用內(nèi)主動執(zhí)行復(fù)雜工作流,進(jìn)行決策和管理任務(wù)。一些實(shí)時 AI 處理任務(wù)的智能體,可在終端側(cè)安全運(yùn)行,同時依靠個人知識圖譜準(zhǔn)確定義用戶偏好和需求,無需依賴云端。
愛簿智能看好 AI 端側(cè)的發(fā)展。但認(rèn)為不會顛覆云計算主導(dǎo)的 AI 開發(fā)范式,孫玉昆提到,端云協(xié)同是未來的主流趨勢,AI 計算正經(jīng)歷從純云端向 " 云 - 邊 - 端 " 協(xié)同的范式轉(zhuǎn)移,5G、邊緣計算等技術(shù)使分布式計算延遲降低到可接受范圍,端側(cè) AI 芯片算力已達(dá) 50TOPS 及以上,可承擔(dān)更復(fù)雜任務(wù),而模型壓縮技術(shù)(如蒸餾、量化)使 7B 這類小參數(shù)模型在端側(cè)達(dá)到接近云端 13B 模型的能力水平。
" 通過輕量化模型突破端側(cè)算力瓶頸,結(jié)合端云一體架構(gòu)實(shí)現(xiàn)能力的彈性擴(kuò)展,正在定義 AI 算力的新范式。在這一架構(gòu)下,用戶將獲得 AI 的‘無縫體驗(yàn)’,日常場景由端側(cè)快速響應(yīng),復(fù)雜任務(wù)延伸至云端,二者協(xié)同工作升級智能體驗(yàn)。" 他說
劉偉光則表示,AI 應(yīng)用構(gòu)建方式非常多樣化,既可以在公共云上進(jìn)行開發(fā)部署,阿里云也支持本地化服務(wù),為了更好服務(wù)本地服務(wù),特別滿足部分政企客戶監(jiān)管性要求,阿里云推出了百煉專署版,支持一云多芯異構(gòu)計算等客戶需求,
他表示,從算力資源到組件調(diào)用,直接影響 AI 實(shí)際應(yīng)用的效果,阿里云內(nèi)部提出了全棧 AI,不僅是大模型,也不僅是云下技術(shù)架構(gòu)層,包含底層的異構(gòu)算力、模型服務(wù)平臺、百煉平臺,以及上面所有面向客戶服務(wù),技術(shù)架構(gòu)層面計算資源需求日益增長,GPU 需求增長速度遠(yuǎn)遠(yuǎn)高于傳統(tǒng) CPU 增長,遍布全球 AI 計算集群會成為未來新的剛需,這些集群支持大規(guī)模的訓(xùn)練任務(wù),并且同時滿足實(shí)時的推理應(yīng)用的需求。
來源:鈦媒體