亚洲丁香婷婷,亚洲精品欧美精品中文字幕,亚洲天堂国产,成年女人18级毛片毛片免费观看,99久久精品免费精品国产,成人亚洲欧美日韩中文字幕,久久国产成人午夜aⅴ影院

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

破解金融AI模型“推不動(dòng)”等難題,“以查代算”提供技術(shù)出路

2025-08-13 18:03:17

人工智能發(fā)展進(jìn)入推理占比顯著提升的新階段,但國(guó)內(nèi)AI推理能力發(fā)展受限。金融領(lǐng)域AI推理能力瓶頸顯現(xiàn),業(yè)界關(guān)注模型推理能力深度優(yōu)化。上?!?025金融AI推理應(yīng)用落地與發(fā)展論壇”上,記者了解到“以查代算”方案,通過(guò)記憶此前推理內(nèi)容降低重復(fù)推理,提高推理效率。分層存儲(chǔ)介質(zhì)系統(tǒng)是必然趨勢(shì),緩存與外置存儲(chǔ)分工不同,共同解決AI推理中的性能和成本問(wèn)題。

每經(jīng)記者|宋欽章    每經(jīng)編輯|張益銘    

人工智能已步入發(fā)展深水區(qū)。記者獲悉,當(dāng)前AI(人工智能)的發(fā)展正從以模型訓(xùn)練為核心的階段,逐步邁入訓(xùn)練與推理并重,甚至推理占比顯著提升的新階段。

訓(xùn)練是大模型的學(xué)習(xí)過(guò)程,目標(biāo)是構(gòu)建或優(yōu)化模型參數(shù);而推理則是大模型的應(yīng)用過(guò)程,目標(biāo)是應(yīng)用已訓(xùn)練好的模型。根據(jù)華為公司提供的數(shù)據(jù),隨著Agent(智能體)應(yīng)用的普及,當(dāng)前推理算力需求已超過(guò)訓(xùn)練。GPT-5開(kāi)放首周20億次/分鐘,70%的請(qǐng)求為復(fù)雜任務(wù)推理(如代碼生成、多步規(guī)劃);而國(guó)內(nèi)火山引擎的日均Token(令牌)調(diào)用量已達(dá)16.4萬(wàn)億,其中70%以上來(lái)自線上推理而非訓(xùn)練。

然而,盡管推理需求逐步旺盛,但國(guó)內(nèi)AI推理能力的發(fā)展仍受限于AI基礎(chǔ)設(shè)施基礎(chǔ)弱、投資少,以及算力卡閹割、算力卡漲價(jià)、HBM(高帶寬內(nèi)存)漲價(jià)等一系列因素。

記者獲悉,當(dāng)前金融領(lǐng)域AI推理能力的瓶頸開(kāi)始顯現(xiàn)。華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線AI存儲(chǔ)首席架構(gòu)師李國(guó)杰表示,從銀行業(yè)來(lái)看,核心有三個(gè)問(wèn)題:一是“推不動(dòng)”,投研分析、輿情分析等場(chǎng)景會(huì)涉及到較多的長(zhǎng)序列輸入,比如一份投研報(bào)告更是上兆級(jí)別,所以“推不動(dòng)”的問(wèn)題經(jīng)常出現(xiàn);二是“推得慢”,核心就是并發(fā)上不去,上去之后每Token時(shí)延特別長(zhǎng);三是“推得貴”,原因是需要耗費(fèi)大量的算力做KV(鍵對(duì)值)的重復(fù)計(jì)算。

8月12日,《每日經(jīng)濟(jì)新聞》記者在上海舉行的“2025金融AI推理應(yīng)用落地與發(fā)展論壇”上了解到,市場(chǎng)越來(lái)越關(guān)注模型推理能力的深度優(yōu)化——讓推理過(guò)程跑得更快、成本更低、效果更好。如今,通過(guò)借助外部存儲(chǔ)的“以查代算”方案,正在為普通企業(yè)突破AI推理瓶頸提供低成本的破題思路。

“以查代算”為AI推理效率與成本找到平衡點(diǎn)

如何讓AI推理能力圍繞“成本—性能—效果”這個(gè)“不可能三角”進(jìn)一步演進(jìn),成為困擾業(yè)界的問(wèn)題。

《每日經(jīng)濟(jì)新聞》記者在論壇上了解到,目前業(yè)內(nèi)已經(jīng)形成的一種解決方案是“以查代算”,即通過(guò)記憶此前已推理過(guò)的內(nèi)容,降低重復(fù)推理,從而提高整體的推理效率。不過(guò)這種方案盡管降低了對(duì)算力的依賴,卻對(duì)存儲(chǔ)提出了更高要求。

此前,行業(yè)的推理能力高度依賴顯卡的HBM,其成本讓普通企業(yè)不堪重負(fù)。為了降低對(duì)HBM的依賴,業(yè)界開(kāi)始探索DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)、SSD(固態(tài)硬盤)等外部存儲(chǔ)方案以節(jié)省算力和帶寬。正如清華大學(xué)章明星介紹:“GPU(圖形處理器)在算力和帶寬兩個(gè)維度上肯定非常好,但是DRAM、SSD等在容量維度上成本很低,如果能夠想辦法利用容量維度,盡可能地節(jié)省對(duì)算力和帶寬的開(kāi)銷,就可以大幅度降低整體系統(tǒng)的成本?!?/p>

記者獲悉,業(yè)界已經(jīng)出現(xiàn)了諸多通過(guò)優(yōu)化存儲(chǔ)分配來(lái)提升推理效率的案例。例如,英偉達(dá)推出了Dynamo推理方案架構(gòu),通過(guò)分布式的KV緩存管理器,提升上下文、吞吐率等;華為發(fā)布了UCM(推理記憶數(shù)據(jù)管理器,Unified Cache Manager)推理記憶數(shù)據(jù)管理器,可以分級(jí)管理推理過(guò)程中產(chǎn)生的KV Cache(即“記憶數(shù)據(jù)”)。

以后者為例,依托UCM層級(jí)化自適應(yīng)的全局前綴緩存技術(shù),系統(tǒng)能直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計(jì)算,顯著降低首Token時(shí)延。UCM還通過(guò)分層卸載超長(zhǎng)序列Cache(緩存)至專業(yè)存儲(chǔ),并創(chuàng)新算法擴(kuò)展推理上下文窗口,滿足長(zhǎng)文本處理需求。同時(shí),UCM具備智能分級(jí)緩存能力,可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中實(shí)現(xiàn)按需流動(dòng),并融合多種稀疏注意力算法,實(shí)現(xiàn)存算協(xié)同,大幅提高長(zhǎng)序列場(chǎng)景下的TPS(每秒處理Token數(shù))。

值得一提的是,在論壇現(xiàn)場(chǎng),華為宣布其UCM將于今年9月正式開(kāi)源,將通過(guò)開(kāi)放統(tǒng)一的南北向接口,適配多類型推理引擎框架、算力及存儲(chǔ)系統(tǒng)。此外,英偉達(dá)官網(wǎng)顯示,前述Dynamo其實(shí)也是一個(gè)開(kāi)源的模塊化推理框架。

金融領(lǐng)域率先獲得應(yīng)用

記者在論壇上獲悉,上述UCM技術(shù)已率先在金融典型場(chǎng)景進(jìn)行了試點(diǎn)應(yīng)用。華為數(shù)字金融軍團(tuán)CEO曹沖介紹,華為和中國(guó)銀聯(lián)在客戶之聲、智慧營(yíng)銷和會(huì)議助手等場(chǎng)景,已驗(yàn)證了UCM技術(shù)的性能表現(xiàn)。

“金融級(jí)應(yīng)用需微秒級(jí)響應(yīng),而卡頓、延遲直接影響風(fēng)控與交易安全。”曹沖表示,金融場(chǎng)景對(duì)AI推理效能有著更高的要求。而UCM技術(shù)之所以選擇在金融場(chǎng)景率先試點(diǎn)落地,李國(guó)杰解釋道:“金融在IT信息化以及其他技術(shù)賦能行業(yè)的建設(shè)中一直走在前列。不管是投資上,還是場(chǎng)景需求上,金融領(lǐng)域都有大量數(shù)據(jù)掘金的機(jī)會(huì)。例如把投資數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、企業(yè)信貸數(shù)據(jù)等喂給AI,做數(shù)據(jù)分析。”

在現(xiàn)場(chǎng),中國(guó)銀聯(lián)智能化創(chuàng)新中心副總經(jīng)理?xiàng)钛嗝魍嘎读松鲜龇桨傅膽?yīng)用效果?!敖?jīng)過(guò)一系列優(yōu)化,我們具備了幾個(gè)關(guān)鍵能力:一是多輪對(duì)話場(chǎng)景中首Token的延遲降低了60%,長(zhǎng)序列的場(chǎng)景可以倍數(shù)級(jí)擴(kuò)展推理長(zhǎng)度,吞吐量達(dá)到了2~5倍的提升?!?/p>

記者了解到,就當(dāng)前階段而言,這類調(diào)用外部存儲(chǔ)介質(zhì)“以查代算”的策略,為企業(yè)在權(quán)衡AI推理效率與成本之間提供了一種解決方案。不過(guò),一個(gè)更值得深究的問(wèn)題是,這種路徑究竟是基于HBM等成本壓力下的過(guò)渡方案,還是AI推理的長(zhǎng)期發(fā)展趨勢(shì)?

對(duì)此,華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線副總裁、閃存領(lǐng)域總裁謝黎明在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示:“大部分?jǐn)?shù)據(jù)都有一定的生命周期,會(huì)存在熱、溫、冷三種狀態(tài)。從這個(gè)角度來(lái)看,一個(gè)分層的存儲(chǔ)介質(zhì)系統(tǒng)是必然的趨勢(shì)。對(duì)于面向推理加速的KV數(shù)據(jù),也必然存在熱、溫、冷之分,我們不可能用最昂貴的熱介質(zhì)來(lái)存儲(chǔ)所有數(shù)據(jù)。因此,必須采用多層介質(zhì)來(lái)解決性能問(wèn)題,同時(shí)平衡成本問(wèn)題。”

華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線副總裁樊杰向記者補(bǔ)充道,在AI推理過(guò)程中,緩存與外置存儲(chǔ)分工不同,前者主要解決的是短期記憶,容量有限,但是反應(yīng)速度很快;后者針對(duì)的是KV Cache的長(zhǎng)期記憶,容量更大,相當(dāng)于把知識(shí)記錄下來(lái)。他打了個(gè)比方:“人類通過(guò)積累,相較于前一代更具智慧,并不是因?yàn)槿四X變聰明了,而在于人類不停地把知識(shí)變成了書籍,后代通過(guò)書籍從而站在上一代人的肩膀上繼續(xù)前行。”

封面圖片來(lái)源:圖片來(lái)源:視覺(jué)中國(guó)-VCG211478193393

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0