每日經(jīng)濟(jì)新聞 2026-01-14 12:10:55
每經(jīng)AI快訊,1月14日,MiniMax官微宣布開源面向Coding Agent的新評測集OctoCodingBench。MiniMax表示,基于該評測集,其針對現(xiàn)有的開源閉源模型進(jìn)行了廣泛的評估,并發(fā)現(xiàn)一些很有啟發(fā)性的實(shí)驗(yàn)結(jié)果:所有模型的Check-level 準(zhǔn)確率(CSR)可以達(dá)到80%+,但I(xiàn)nstance-level成功率(ISR)只有10%-30%;絕大多數(shù)模型的指令遵循能力會隨著輪次的變多逐漸下降;現(xiàn)階段模型表現(xiàn)普遍未能達(dá)到生產(chǎn)級要求,過程合規(guī)仍是盲區(qū);開源模型正在快速追趕閉源模型。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP