財(cái)聯(lián)社4月17日訊(編輯 史正丞)AI產(chǎn)業(yè)明星公司Anthropic周四推出旗艦人工智能模型Claude Opus的4.7版本,側(cè)重于軟件工程領(lǐng)域的提升,同時(shí)在金融分析、視覺能力和創(chuàng)作“品味”方面均實(shí)現(xiàn)了長足的進(jìn)步。
![]()
(來源:公司官網(wǎng))
公司也表示,Claude Opus 4.7與強(qiáng)悍到無法公開發(fā)布的Mythos“神話”模型存在全方位的能力差距。但后者目前僅供一小撮頂級(jí)機(jī)構(gòu)先行試用,尋找應(yīng)對“AI網(wǎng)絡(luò)浩劫”的破解之道,短期內(nèi)恐無緣公開面世。
Anthropic公布的基準(zhǔn)測試結(jié)果也印證了這種說法。在大多數(shù)AI模型“跑分”中,Opus 4.7較兩個(gè)月前發(fā)布的Opus 4.6,以及競品GPT-5.4都要高出一頭,但和Mythos明顯不在一個(gè)檔次上。
![]()
當(dāng)然,即便能力比不上Mythos,Claude Opus 4.7依然是地球打工人眼下能用到的最頂級(jí)大模型。
Anthropic介紹稱,Claude Opus 4.7在遵循指令方面出現(xiàn)顯著提升。過往的模型可能會(huì)寬松地“糊弄”指令或完全跳過部分指示,但Opus 4.7會(huì)嚴(yán)格按字面執(zhí)行指令。
因此,Opus 4.7在高級(jí)軟件工程領(lǐng)域較4.6有顯著提升,特別是在“最困難的任務(wù)”上。Opus 4.7能以嚴(yán)謹(jǐn)和一致的方式處理復(fù)雜、長期運(yùn)行的任務(wù),精確遵循指令,并在反饋結(jié)果前想出驗(yàn)證自身輸出的方法。
除了軟件工程師外,Opus 4.7對金融分析師和更廣泛的辦公室白領(lǐng)也能提供更強(qiáng)大的賦能。
Opus 4.7在“金融分析代理”測試中,取得了全球AI大模型最高的得分。相較4.6版本,能夠生成嚴(yán)謹(jǐn)?shù)姆治雠c建模、更專業(yè)的報(bào)告展示,并在各項(xiàng)任務(wù)間實(shí)現(xiàn)更緊密的整合。在衡量AI在金融、法律和其他知識(shí)性工作的GDPval AA測試中,Opus 4.7也拿到行業(yè)領(lǐng)先的成績。
![]()
Opus 4.7的多模態(tài)能力也迎來關(guān)鍵更新,現(xiàn)在能夠識(shí)別邊長最長達(dá)2576像素的圖像,是之前的三倍多。Anthropic表示,在完成專業(yè)任務(wù)時(shí),Opus 4.7能表現(xiàn)得更有“品味”且更具創(chuàng)造力,能夠生成質(zhì)量更高的界面、演示文稿和文檔。
此外,Opus 4.7在使用基于文件系統(tǒng)的記憶方面更為出色。它能在長時(shí)間、多會(huì)話的工作中記住重要筆記,并將其用于開展新的任務(wù),因此新任務(wù)需要更少的前置上下文。
定價(jià)方面,Opus 4.7與4.6一致,每百萬輸入詞元5美元,每百萬輸出詞元25美元。
Anthropic也提醒稱,Opus 4.7使用了一套更新的分詞器,提升了模型處理文本的方式。這導(dǎo)致相同輸入內(nèi)容可能會(huì)被映射為更多的詞元,大約在1-1.35倍之間。
同時(shí)在高計(jì)算強(qiáng)度下,尤其是在智能體多輪交互場景的后續(xù)輪次中,Opus 4.7會(huì)進(jìn)行更多“思考”。這提高了模型處理復(fù)雜問題的可靠性,但也會(huì)產(chǎn)生更多輸出詞元。所以用戶需要在模型能力和錢包深度之間進(jìn)行取舍。整體而言,消耗同等詞元,模型產(chǎn)出的結(jié)果能夠出現(xiàn)正向提升。
![]()
(各努力等級(jí)下模型隨詞元使用量變化的得分)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.