![]()
前言
Anthropic公司宣布,Claude 3模型家族將重新定義我們在認知任務上的行業標準。這個家族包括三個不同能力的模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每個模型都在智能、速度和成本之間提供了最佳的平衡,以適應各種特定應用的需求。
![]()
Claude 3:智能的新標準
Claude 3系列模型在多項評估基準測試中超越了同行,包括本科水平的專家知識(MMLU)、研究生水平的專家推理(GPQA)、基礎數學(GSM8K)等。Opus,作為最智能的模型,展現了接近人類的理解和流利度,引領了通用智能的前沿。所有Claude 3模型在分析、預測、細致內容創作、代碼生成以及非英語語言對話(如西班牙語、日語和法語)方面的能力都有所增強。
![]()
近瞬時結果:速度與效率的完美結合
Claude 3模型能夠支持實時客戶聊天、自動完成和數據提取任務,響應速度必須迅速且實時。Haiku是市場上速度最快、性價比最高的模型,它能在不到三秒鐘的時間內閱讀一篇包含圖表和圖形的arXiv研究論文(約10k tokens)。Sonnet在大多數工作負載中的速度是Claude 2的兩倍,且智能水平更高,擅長快速響應的任務,如知識檢索或銷售自動化。Opus則在保持類似速度的同時,提供了更高的智能水平。
強大的視覺能力
Claude 3模型具有與其他領先模型相媲美的復雜視覺能力。它們可以處理各種視覺格式,包括照片、圖表、圖形和技術圖。特別的是,能夠為特別的企業提供這種新的模態,因為一些企業的知識庫中有高達50%的信息以PDF、流程圖或演示文稿幻燈片等格式編碼。
![]()
更少的拒絕:更細膩的理解
以前的Claude模型經常做出不必要的拒絕,這表明缺乏上下文理解。Opus、Sonnet和Haiku在拒絕接近系統邊界的提示方面的可能性顯著降低。Claude 3模型展示了更細膩的理解能力,識別真正的傷害,并更少地拒絕無害的提示。
![]()
提高準確性:可信賴的輸出
各種規模的企業都依賴Claude模型來服務他們的客戶,這使得模型輸出在大規模上保持高準確性至關重要。為了評估這一點,用了一系列復雜的、針對當前模型已知弱點的事實問題。根據模型的回答將它們分類為正確答案、錯誤答案(或幻覺)以及承認不確定性。與Claude 2.1相比,Opus在這些具有挑戰性的開放式問題上的正確答案(或準確率)提高了兩倍,同時也展示了較低的錯誤答案水平。
![]()
長篇幅上下文與近乎完美的回憶
Claude 3系列模型最初將提供一個200K的上下文窗口。然而,所有三個模型都能夠接受超過100萬個tokens的輸入,同時可能會為需要增強處理能力的特定客戶開放這一功能。為了有效地處理長篇幅上下文提示,模型需要強大的回憶能力。'Needle In A Haystack'(NIAH)評估衡量了模型從大量數據中準確回憶信息的能力。通過使用每個提示的30個隨機針/問題對之一,并在多樣化的眾包文檔語料庫上進行測試,增強了這個基準的魯棒性。Claude 3 Opus不僅實現了近乎完美的回憶,準確率超過99%,而且在某些情況下,它甚至識別了評估本身的局限性,意識到“針”句子似乎是被人為插入到原始文本中的。
![]()
模型細節
Claude 3 Opus能夠處理高度復雜的任務。它能夠以驚人的流暢度和類人理解力處理開放式提示和未見場景。Opus向我們展示了生成性AI的可能性極限。Claude 3 Sonnet在智能和速度之間取得了理想的平衡,特別適合企業工作負載。它以較低的成本提供強大的性能,并為大規模AI部署設計了高耐久性。用戶將能夠構建無縫的AI體驗,模仿人類互動。
模型可用性
Opus和Sonnet現在已經在API中可用,該API現已在159個國家普遍可用,使開發者能夠立即注冊并開始使用這些模型。Haiku將很快推出。Sonnet正在為claude.ai上的免費體驗提供動力,Opus則為Claude Pro訂閱者提供。Sonnet今天也通過Amazon Bedrock和在Google Cloud的Vertex AI Model Garden中提供私人預覽——Opus和Haiku也將很快在兩者中推出。
型號詳情
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.