2025-12-20 23:52:43
12月18日,火山引擎發(fā)布豆包大模型1.8與音視頻創(chuàng)作模型Seedance 1.5 pro,前者面向多模態(tài)Agent場景優(yōu)化,后者實(shí)現(xiàn)影視級技術(shù)突破。火山引擎升級模型“多模態(tài)大腦”,提升工具調(diào)用、復(fù)雜指令遵循等能力。日均token調(diào)用量破50萬億的火山引擎也面臨激烈競爭,不過其總裁譚待持開放態(tài)度,強(qiáng)調(diào)安全為首要考量。
每經(jīng)記者|李宇彤 每經(jīng)編輯|魏文藝
超萬人報(bào)名、現(xiàn)場開場前十分鐘便一座難求。
一方面,年底舉行的火山引擎FORCE原動(dòng)力大會(huì)是字節(jié)跳動(dòng)AI(人工智能)實(shí)力的集中展現(xiàn);另一方面,其火熱程度也映射出整個(gè)大模型行業(yè)站在技術(shù)拐點(diǎn)前的迫切與躁動(dòng)。
12月18日,火山引擎正式發(fā)布豆包大模型1.8與音視頻創(chuàng)作模型Seedance 1.5 pro。其中,旗艦?zāi)P投拱?.8明確面向多模態(tài)Agent(智能體)場景進(jìn)行定向優(yōu)化;Seedance 1.5 pro則在影視級敘事張力、細(xì)節(jié)捕捉、情緒呈現(xiàn)及音畫同步技術(shù)上實(shí)現(xiàn)了突破。
如果說春季大會(huì)是以技術(shù)普惠和分段計(jì)價(jià)切入市場,那么臨近2025年底,火山引擎正試圖通過提升技術(shù)“加速度”,以應(yīng)對以Agent為核心的下一個(gè)競爭階段。
這條賽道上不乏重量級選手。在火山引擎強(qiáng)化其Agent布局的同時(shí),阿里云也在多模態(tài)賽道全力加速:其于9月發(fā)布通義萬相Wan2.5 preview模型,實(shí)現(xiàn)了音畫同步生成,并提升了視頻時(shí)長與畫質(zhì);在12月的“千問”項(xiàng)目中,阿里接入了最新的視頻生成模型萬相2.6。
當(dāng)對技術(shù)突破的期待高漲,AI如何從演示和榜單走向真正驅(qū)動(dòng)千行百業(yè)的生產(chǎn)力?火山引擎此次押注于Agent和多模態(tài),正試圖以更快的技術(shù)演進(jìn)回應(yīng)這一時(shí)代之問。

圖片來源:每經(jīng)記者李宇彤 攝
火山引擎此次大會(huì)的核心,是升級了模型的“多模態(tài)大腦”。
據(jù)火山引擎總裁譚待介紹,豆包大模型1.8面向多模態(tài)Agent場景進(jìn)行了定向優(yōu)化。其工具調(diào)用能力、復(fù)雜指令遵循能力及OS Agent能力均得到增強(qiáng),提升了模型在處理復(fù)雜任務(wù)時(shí)的規(guī)劃與執(zhí)行水平。
在多模態(tài)理解方面,1.8版本提升了視覺基礎(chǔ)能力,可低幀率理解超長視頻,并在視頻運(yùn)動(dòng)、復(fù)雜空間及文檔解析上有所突破。它還原生支持智能上下文管理,能在長任務(wù)中智能清理低價(jià)值歷史信息,確保多步驟任務(wù)穩(wěn)定完成。
測試數(shù)據(jù)印證了這些進(jìn)步。根據(jù)其公布的評測圖表,豆包1.8在AIME 2025測評集上表現(xiàn)提升,于通用智能體測評BrowserComp中取得全球領(lǐng)先的成績。而在多模態(tài)理解方面,在視覺判斷準(zhǔn)確性、空間理解等多項(xiàng)關(guān)鍵能力上超越了Gemini 3。

豆包1.8 Agent能力測試結(jié)果 圖片來源:企業(yè)供圖
多模態(tài)能力的提升是模型成為復(fù)雜代理的關(guān)鍵。譚待闡釋了其戰(zhàn)略意義:“多模態(tài)其實(shí)代表著模型的應(yīng)用進(jìn)入更深的領(lǐng)域?!?/p>
譚待在接受包括《每日經(jīng)濟(jì)新聞》記者在內(nèi)的媒體采訪時(shí)指出,現(xiàn)實(shí)中的需求輸入常帶有視覺信息,如車載環(huán)境、產(chǎn)品質(zhì)檢,且工具返回的結(jié)果也多為視覺化。要有視覺化的理解才能處理這些工具的結(jié)果,這讓模型能像人一樣操作,極大地?cái)U(kuò)展了適用性。“我們很早就意識(shí)到這個(gè)(多模態(tài))才是模型真正地成為復(fù)雜的Agent(關(guān)鍵)。”
當(dāng)多模態(tài)理解能力與具體的終端場景結(jié)合,便催生了顛覆性的體驗(yàn)。
譚待以智能汽車座艙的理解提升為例,接入大模型后,系統(tǒng)在能理解“好熱”時(shí)就調(diào)溫,在說“打開天窗”時(shí)就打開遮陽板。甚至能完成憑歌詞搜歌等復(fù)雜操作,以及復(fù)雜的語音點(diǎn)餐。
他還描繪了一個(gè)更具象的未來場景:在導(dǎo)航至目的地時(shí),系統(tǒng)不僅能推薦附近餐館,更能無縫完成車內(nèi)點(diǎn)餐。他以與瑞幸合作的語音點(diǎn)餐為例展開說明,表示若以后這一能力平移到行車場景中,只需提前告知“在公司樓下幫我點(diǎn)杯咖啡”,抵達(dá)后便能直接取餐。
譚待總結(jié)道:“這種交互就是完全自然的以Agent的方式,像人一樣跟它交互,它能幫你做各種各樣的事情?!彼J(rèn)為,這種智能交互將覆蓋手機(jī)、汽車乃至各類終端,展現(xiàn)出一個(gè)充滿可能性的“智能空間”。
與此同時(shí),這種“多模態(tài)Agent”能力正通過標(biāo)準(zhǔn)化的API(應(yīng)用程序編程接口)與開發(fā)平臺(tái)(AgentKit),快速向更廣闊的硬件與行業(yè)生態(tài)擴(kuò)散。本次大會(huì)上正式宣布的“豆包助手API”,旨在將豆包對話、思考、搜索等核心產(chǎn)品能力打包開放,讓企業(yè)開箱即用,目前首批四項(xiàng)文本能力已上線火山方舟應(yīng)用實(shí)驗(yàn)室。
目前,火山引擎活躍的生態(tài)已經(jīng)在調(diào)用量上有所體現(xiàn)。截至今年12月,豆包大模型日均tokens(大模型處理文本的最小單位)調(diào)用量已突破50萬億,較去年同期增長超十倍;同時(shí),有超過百家企業(yè)累計(jì)使用量超過1萬億tokens。
但站在日均50萬億tokens調(diào)用量的節(jié)點(diǎn)上,火山引擎接下來將面臨的是一個(gè)競爭日趨白熱化的市場。
在國內(nèi),阿里等對手在多模態(tài)與視頻生成領(lǐng)域緊追不舍。今年9月,阿里發(fā)布通義萬相Wan2.5模型,首次實(shí)現(xiàn)音畫同步生成,并顯著提升了視頻時(shí)長與清晰度。緊接著在11月,阿里宣布全力進(jìn)軍AI to C市場,將“通義App”更名為“千問App”。
到了12月,千問App已快速接入迭代后的萬相2.6模型。該版本不僅支持多鏡頭生成、音頻驅(qū)動(dòng)等進(jìn)階功能,更宣稱實(shí)現(xiàn)了Sora2(OpenAI發(fā)布的新一代視頻生成模型)尚未具備的某些能力,力圖在視頻生成的功能全面性上建立競爭優(yōu)勢。此外,其他云廠商與AI公司也在通過價(jià)格策略、行業(yè)深度合作等方式爭奪市場份額。
對此,譚待在采訪中表現(xiàn)出一種開放的“競合”觀,他更傾向于將市場視為一個(gè)共同做大的蛋糕。在他看來,更多重量級玩家的投入能加速市場教育和基礎(chǔ)設(shè)施成熟。“越多人進(jìn)來是能夠加速(行業(yè)發(fā)展),能帶來更多的人,更多的想法,我們就能把這個(gè)事加速做好?!?/p>
而當(dāng)被問及如何評估與公認(rèn)頂尖模型Gemini 3的差距時(shí),火山引擎總裁譚待展現(xiàn)出務(wù)實(shí)的追趕心態(tài)。他坦言:“你要衡量距離那有差距?!钡鼜?qiáng)調(diào)動(dòng)態(tài)的追趕過程,將競爭維度分解為距離、速度與加速度。“我覺得加速度我們現(xiàn)在在提升。”譚待表示:“最終肯定能看到越來越接近?!?/p>
并且,隨著AI能力深入消費(fèi)電子與企業(yè)核心,安全從技術(shù)問題演變?yōu)槭袌鲂湃蔚幕?。豆包手機(jī)助手上線后,其安全實(shí)踐便成為密集關(guān)注的焦點(diǎn),促使官方兩度作出公開澄清。
對于INJECT_EVENTS(注入權(quán)限/注入事件)權(quán)限爭議,豆包手機(jī)助手于12月3日聲明,該權(quán)限是實(shí)現(xiàn)自動(dòng)化操作所必需的系統(tǒng)級能力,需經(jīng)用戶主動(dòng)授權(quán)且已在清單中明確披露,不會(huì)代替用戶進(jìn)行任何敏感授權(quán)與操作。
12月13日,豆包手機(jī)助手又一次就安全爭議作出回應(yīng),稱其采用原生截屏接口,嚴(yán)格遵循應(yīng)用聲明的Secure標(biāo)記(安全標(biāo)記),無法截取銀行安全鍵盤等受保護(hù)界面的內(nèi)容。
針對豆包手機(jī)助手引發(fā)的安全討論,譚待也在采訪中表示,無論是面向消費(fèi)者的產(chǎn)品還是企業(yè)級服務(wù),安全都是字節(jié)跳動(dòng)的首要考量。
此次發(fā)布會(huì)上,安全也被置于議程最前端,通過新功能MaaS on AICC(模型即服務(wù)基于人工智能機(jī)密計(jì)算平臺(tái)),火山方舟上的所有模型,包括豆包大模型家族和deepseek等開源模型,都可以直接運(yùn)行在AICC加密環(huán)境中,只需要在火山方舟選擇“機(jī)密部署”方式,就可以一鍵開啟各種模型的機(jī)密推理服務(wù)。
押注Agent是火山引擎給出的戰(zhàn)略答案,最終的檢驗(yàn)將取決于智能體所創(chuàng)造的實(shí)際價(jià)值,以及能否在運(yùn)行全周期中筑牢可靠的安全防線。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
封面圖片來源:每經(jīng)記者 李宇彤 攝
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP