要聞

破解金融AI模型“推不動”等難題，“以查代算”提供技術(shù)出路

2025-08-13 18:03:17

人工智能發(fā)展進入推理占比顯著提升的新階段，但國內(nèi)AI推理能力發(fā)展受限。金融領域AI推理能力瓶頸顯現(xiàn)，業(yè)界關(guān)注模型推理能力深度優(yōu)化。上?！?025金融AI推理應用落地與發(fā)展論壇”上，記者了解到“以查代算”方案，通過記憶此前推理內(nèi)容降低重復推理，提高推理效率。分層存儲介質(zhì)系統(tǒng)是必然趨勢，緩存與外置存儲分工不同，共同解決AI推理中的性能和成本問題。

每經(jīng)記者｜宋欽章每經(jīng)編輯｜張益銘

人工智能已步入發(fā)展深水區(qū)。記者獲悉，當前AI（人工智能）的發(fā)展正從以模型訓練為核心的階段，逐步邁入訓練與推理并重，甚至推理占比顯著提升的新階段。

訓練是大模型的學習過程，目標是構(gòu)建或優(yōu)化模型參數(shù)；而推理則是大模型的應用過程，目標是應用已訓練好的模型。根據(jù)華為公司提供的數(shù)據(jù)，隨著Agent（智能體）應用的普及，當前推理算力需求已超過訓練。GPT-5開放首周20億次/分鐘，70%的請求為復雜任務推理（如代碼生成、多步規(guī)劃）；而國內(nèi)火山引擎的日均Token（令牌）調(diào)用量已達16.4萬億，其中70%以上來自線上推理而非訓練。

然而，盡管推理需求逐步旺盛，但國內(nèi)AI推理能力的發(fā)展仍受限于AI基礎設施基礎弱、投資少，以及算力卡閹割、算力卡漲價、HBM（高帶寬內(nèi)存）漲價等一系列因素。

記者獲悉，當前金融領域AI推理能力的瓶頸開始顯現(xiàn)。華為數(shù)據(jù)存儲產(chǎn)品線AI存儲首席架構(gòu)師李國杰表示，從銀行業(yè)來看，核心有三個問題：一是“推不動”，投研分析、輿情分析等場景會涉及到較多的長序列輸入，比如一份投研報告更是上兆級別，所以“推不動”的問題經(jīng)常出現(xiàn)；二是“推得慢”，核心就是并發(fā)上不去，上去之后每Token時延特別長；三是“推得貴”，原因是需要耗費大量的算力做KV（鍵對值）的重復計算。

8月12日，《每日經(jīng)濟新聞》記者在上海舉行的“2025金融AI推理應用落地與發(fā)展論壇”上了解到，市場越來越關(guān)注模型推理能力的深度優(yōu)化——讓推理過程跑得更快、成本更低、效果更好。如今，通過借助外部存儲的“以查代算”方案，正在為普通企業(yè)突破AI推理瓶頸提供低成本的破題思路。

“以查代算”為AI推理效率與成本找到平衡點

如何讓AI推理能力圍繞“成本—性能—效果”這個“不可能三角”進一步演進，成為困擾業(yè)界的問題。

《每日經(jīng)濟新聞》記者在論壇上了解到，目前業(yè)內(nèi)已經(jīng)形成的一種解決方案是“以查代算”，即通過記憶此前已推理過的內(nèi)容，降低重復推理，從而提高整體的推理效率。不過這種方案盡管降低了對算力的依賴，卻對存儲提出了更高要求。

此前，行業(yè)的推理能力高度依賴顯卡的HBM，其成本讓普通企業(yè)不堪重負。為了降低對HBM的依賴，業(yè)界開始探索DRAM（動態(tài)隨機存取存儲器）、SSD（固態(tài)硬盤）等外部存儲方案以節(jié)省算力和帶寬。正如清華大學章明星介紹：“GPU（圖形處理器）在算力和帶寬兩個維度上肯定非常好，但是DRAM、SSD等在容量維度上成本很低，如果能夠想辦法利用容量維度，盡可能地節(jié)省對算力和帶寬的開銷，就可以大幅度降低整體系統(tǒng)的成本?！?/p>

記者獲悉，業(yè)界已經(jīng)出現(xiàn)了諸多通過優(yōu)化存儲分配來提升推理效率的案例。例如，英偉達推出了Dynamo推理方案架構(gòu)，通過分布式的KV緩存管理器，提升上下文、吞吐率等；華為發(fā)布了UCM（推理記憶數(shù)據(jù)管理器，Unified Cache Manager）推理記憶數(shù)據(jù)管理器，可以分級管理推理過程中產(chǎn)生的KV Cache（即“記憶數(shù)據(jù)”）。

以后者為例，依托UCM層級化自適應的全局前綴緩存技術(shù)，系統(tǒng)能直接調(diào)用KV緩存數(shù)據(jù)，避免重復計算，顯著降低首Token時延。UCM還通過分層卸載超長序列Cache（緩存）至專業(yè)存儲，并創(chuàng)新算法擴展推理上下文窗口，滿足長文本處理需求。同時，UCM具備智能分級緩存能力，可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中實現(xiàn)按需流動，并融合多種稀疏注意力算法，實現(xiàn)存算協(xié)同，大幅提高長序列場景下的TPS（每秒處理Token數(shù)）。

值得一提的是，在論壇現(xiàn)場，華為宣布其UCM將于今年9月正式開源，將通過開放統(tǒng)一的南北向接口，適配多類型推理引擎框架、算力及存儲系統(tǒng)。此外，英偉達官網(wǎng)顯示，前述Dynamo其實也是一個開源的模塊化推理框架。

金融領域率先獲得應用

記者在論壇上獲悉，上述UCM技術(shù)已率先在金融典型場景進行了試點應用。華為數(shù)字金融軍團CEO曹沖介紹，華為和中國銀聯(lián)在客戶之聲、智慧營銷和會議助手等場景，已驗證了UCM技術(shù)的性能表現(xiàn)。

“金融級應用需微秒級響應，而卡頓、延遲直接影響風控與交易安全?！辈軟_表示，金融場景對AI推理效能有著更高的要求。而UCM技術(shù)之所以選擇在金融場景率先試點落地，李國杰解釋道：“金融在IT信息化以及其他技術(shù)賦能行業(yè)的建設中一直走在前列。不管是投資上，還是場景需求上，金融領域都有大量數(shù)據(jù)掘金的機會。例如把投資數(shù)據(jù)、財務數(shù)據(jù)、企業(yè)信貸數(shù)據(jù)等喂給AI，做數(shù)據(jù)分析?！?/p>

在現(xiàn)場，中國銀聯(lián)智能化創(chuàng)新中心副總經(jīng)理楊燕明透露了上述方案的應用效果?！敖?jīng)過一系列優(yōu)化，我們具備了幾個關(guān)鍵能力：一是多輪對話場景中首Token的延遲降低了60%，長序列的場景可以倍數(shù)級擴展推理長度，吞吐量達到了2～5倍的提升?！?/p>

記者了解到，就當前階段而言，這類調(diào)用外部存儲介質(zhì)“以查代算”的策略，為企業(yè)在權(quán)衡AI推理效率與成本之間提供了一種解決方案。不過，一個更值得深究的問題是，這種路徑究竟是基于HBM等成本壓力下的過渡方案，還是AI推理的長期發(fā)展趨勢？

對此，華為數(shù)據(jù)存儲產(chǎn)品線副總裁、閃存領域總裁謝黎明在接受《每日經(jīng)濟新聞》記者采訪時表示：“大部分數(shù)據(jù)都有一定的生命周期，會存在熱、溫、冷三種狀態(tài)。從這個角度來看，一個分層的存儲介質(zhì)系統(tǒng)是必然的趨勢。對于面向推理加速的KV數(shù)據(jù)，也必然存在熱、溫、冷之分，我們不可能用最昂貴的熱介質(zhì)來存儲所有數(shù)據(jù)。因此，必須采用多層介質(zhì)來解決性能問題，同時平衡成本問題?！?/p>

華為數(shù)據(jù)存儲產(chǎn)品線副總裁樊杰向記者補充道，在AI推理過程中，緩存與外置存儲分工不同，前者主要解決的是短期記憶，容量有限，但是反應速度很快；后者針對的是KV Cache的長期記憶，容量更大，相當于把知識記錄下來。他打了個比方：“人類通過積累，相較于前一代更具智慧，并不是因為人腦變聰明了，而在于人類不停地把知識變成了書籍，后代通過書籍從而站在上一代人的肩膀上繼續(xù)前行?！?/p>

封面圖片來源：圖片來源：視覺中國-VCG211478193393

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

寶麗迪：2025年半年度凈利潤約6381萬元，同比增加15.19%

返回每經(jīng)網(wǎng)首頁

下一篇文章

珂瑪科技：約8658.27萬股限售股8月18日解禁

相關(guān)文章