每日經濟新聞 2025-05-28 07:47:33
近日,字節(jié)跳動旗下AI智能助手“豆包”的App上線視頻通話功能,該功能用處不少。豆包團隊近期就發(fā)文列舉了公園花草識別、博物館講解等四大應用場景。一位大模型算法工程師表示,豆包在視頻通話中展現的視頻理解與語音交互能力,在中文語境中處于第一梯隊。
每經記者|李宇彤 楊昕怡 每經編輯|文多
圖片來源:微信文章截圖
國內AI(人工智能)視頻交互賽道再添重磅玩家。
近日,字節(jié)跳動旗下AI智能助手“豆包”的App上線視頻通話功能,支持視頻聊天問答。據官方介紹,本次升級基于視覺推理模型,支持聯網搜索。
《每日經濟新聞》記者實測發(fā)現,豆包的視頻通話功能用處不少,包括識別水果成熟度這樣的日常用途。此外,在識別物品時,豆包更展現出持續(xù)記憶和邏輯推理能力。
5月27日,一位大模型算法工程師接受《每日經濟新聞》記者微信采訪時表示,豆包在視頻通話中展現出的視頻理解與語音交互能力,在中文語境中處于第一梯隊。
繼文生視頻大模型后,字節(jié)在AI多模態(tài)領域又邁出關鍵一步。
“視覺是人類了解這個世界最重要的方式,對于大模型來說也是如此。”在去年12月舉行的“2024火山引擎FORCE原動力大會·冬”上,火山引擎總裁譚待發(fā)布了豆包視覺理解模型,稱該模型具備更出色的內容識別、理解、推理、視覺描述和創(chuàng)作等能力。
5個月后,這一新模型的能力讓所有豆包用戶“眼見為實”了。
近日,豆包App上線了實時視頻通話功能,這一功能的實現正是基于豆包視覺理解模型的能力。
為了更直觀地展示這一新功能的應用場景,豆包團隊在其官方微信公眾號上列舉了公園內花草識別、博物館內實時講解、圖書館內書籍推薦查閱以及買菜時的食材搭配這四大生活場景。在去年12月的發(fā)布會上,豆包團隊就曾在演示視頻中呈現了該模型在識別地標、讀懂代碼、分析體檢報告、為用戶提供穿搭意見等日常任務中的完成能力。
和豆包打個視頻電話,是否真的能解決上述這些生活問題呢?百聞不如一見,《每日經濟新聞》記者近日以挑選水果、識別物品和推薦書籍這三項任務,對豆包的實時視頻通話功能進行了實測。
首先,是較為基礎的挑選水果任務,這也是用戶在小紅書等社交媒體上分享得最多的應用場景。“你來幫我挑選一個木瓜吧。”當開啟視頻通話后,豆包通過對果實表皮顏色、飽滿程度等指標的觀察,快速給出了挑選建議。有小紅書用戶在使用豆包挑選蔬菜后表示:“感覺突然身邊多了個懂行的買菜老大爺。”
在識別物品和推薦書籍的環(huán)節(jié),豆包展現出了良好的記憶能力和連貫的實時搜索、互動性能。例如,面對雜亂擺放著書籍、巧克力、耳機和電子時鐘等物品的書桌,豆包可以輕松識別所有物品的詳細信息并記憶它們在桌上的擺放位置。
這一記憶功能在記者瀏覽書架時得到了更為充分的展現。記者在書店隨機挑選了一個書架,就書架一側第一本書和豆包進行溝通,同時舉起手機走向了書架的另一頭,再突然提出“剛剛有一本蔡磊寫的書,你看到了嗎?”的問題,豆包迅速記起這本曾在鏡頭前一閃而過的書,并對該書進行了簡單介紹。
“(記憶功能的實現)大概率是每隔幾秒給模型拍攝一張圖片。”一位大模型算法工程師在微信上接受《每日經濟新聞》記者采訪時表示,豆包在該功能中展現的視頻理解和語音交互能力,在中文語境中處于第一梯隊。
與豆包進行關于多本書籍的聊天時,豆包能夠結合記憶能力與實時搜索,對書籍內容、作者生平、同類作品推薦等話題進行自然延伸,整個交互過程流暢且生動。
在去年,AI的視頻交互功能就已經在業(yè)界掀起波瀾。
2024年8月,“智譜清言”App率先推出了國內首個面向C端(消費者端)開放的視頻通話功能。一時間,網上涌現出大量對視頻通話功能的測試。測試方式從最基礎的物體識別到生活場景的溝通交流,甚至包括輔導小學生作業(yè)。
趕在OpenAI和谷歌之前,智譜清言先一步將AI視頻交互在國內落地。在國際市場上,從“聽見”到“看見”同樣成為AI進化的下一步。
2024年5月,OpenAI公司的“GPT-4o”發(fā)布?,F場,OpenAI的研究員演示了GPT-4o的實時視覺功能——它通過手機攝像頭實時解了一個方程,甚至還能通過前置攝像頭觀察用戶的面部表情,分析用戶的情緒。同月,谷歌推出的“Project Astra”同樣具備實時語音、視頻交互的能力。
今年4月,火山引擎總裁譚待也曾表示:“模型要有能力做好思考、計劃和反思,并且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣,Agent(智能體)才能更好地處理復雜任務。”
視頻通話功能的實現,就建立在其多模態(tài)能力之上。從最后呈現的使用形態(tài)來看,視頻通話功能使得用戶無需再通過語言組織傳達眼前的信息,這無疑是對AI使用門檻的再一次降低。
技術能力的升級為AI打通了視覺和聽覺的“任督二脈”,但也要看到,AI智能助手的快速擴張已經來到了瓶頸,新的交互范式可能是新階段的關鍵。
據量子位智庫數據,4月份Web端(網頁端)AI智能助手的總訪問量首次出現下降,說明以嘗鮮驅動的擴張期或已結束。
隨著豆包在今年3月接入抖音及其“打電話”功能在社交媒體上受到關注,豆包也在通過抖音生態(tài)快速觸達用戶。
27日,知名經濟學者、工信部信息通信經濟專家委員會委員盤和林在接受《每日經濟新聞》記者微信采訪時表示,豆包有著龐大的用戶應用生態(tài)作為支撐,擴散應該比對手要快。
他認為,豆包在商業(yè)拓展時主要還是和“剪映”集成,可以和抖音的內容審核AI結合。比如可以通過AI發(fā)現違規(guī)的短視頻內容。盤和林還表示,AI視頻交互的使用前景非常光明,比如生成虛擬人進行直播,又比如通過AI識別來迅速對視頻文件進行歸納總結。
另一方面,AI眼鏡這一類符合視頻通話應用場景的新硬件逐漸升溫,也給AI視頻交互帶來了更多可能性。
盤和林認為:“AI視頻交互可以和AI眼鏡有限結合,但現階段AI眼鏡的算力和顯示等方面還存在技術缺陷。所以,期待未來有新的融合。”
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP