![]()
作者 | 山竹
出品 | 鋅產業
如果要問誰是大模型領域未來奪冠的熱門選手,我認為至少會有兩個:
其一是這一年在To B領域高歌猛進的阿里,另一個則是在To C領域各種產品不斷上新的字節。
就在今天,在OpenAI的12場AI線上“座談會”持續更新中,字節也對豆包進行了更新發布。
在產品發布之前,字節先是通過視頻展示了豆包視覺識別能力,可以識別桌面上的物體、可以識別電腦屏幕上的代碼、可以看懂你的體檢報告。
在這個視頻中,豆包甚至可以幫你搞定衣服穿搭、外出指南等一天內的諸多瑣事。
這就是這次發布會的重頭戲,豆包視覺理解模型。
01視覺大模型,AI生產力關鍵
自今年5月正式發布后,發布僅7個月(截止12月15日),日均調用量就達到了4萬億次,這是火山引擎總裁譚待給出的豆包大模型日均調用最新數據。
![]()
7個月里,豆包大模型日均調用量增長了33倍,這樣的增速既有全世界對于大模型的關注度,也有大模型“投流”的廣告大戰。
此前鈦媒體的一份統計數據顯示,截止10月29日,kimi 智能助手、字節跳動豆包、騰訊元寶等所有 AI 應用10月全網廣告投放(投流)支出超過3億元人民幣。
其中,在10月“投流”花費相對較少的豆包,也支出了2200萬元。
這也是為什么大家在2024年對大模型的感知度這么高的一個主要原因,也是這些大模型能夠有如此高的增速的一個主要原因。
如此巨額的投資,想要通過用戶訂閱來做到商業閉環,自是不現實。
畢竟相較于OpenAI將訂閱費從20美元/月提升到200美元/月,乃至正在計劃的2000美元/月的高級版本,國內大模型依然處于通過價格戰收攏用戶階段。
于是,面向更實際商業場景提供服務就成了一個重要的商業模式。
針對這次重點發布的豆包視覺理解模型,譚待重點介紹的正是在面向商業場景的應用。
![]()
關于為什么做視覺理解模型,譚待給出的解釋是,“只有做好視覺模型,才能讓模型有能力處理好真實世界的信息,輔助人類完成一系列復雜工作。”
據譚待介紹,豆包視覺理解模型特別強調三項能力:
第一,內容識別能力。
豆包視覺理解模型不僅可以識別出圖像中的物體類別、形狀等要素,還能理解物體之間的關系、空間布局和場景的整體含義。
例如豆包視覺理解模型可以通過貓的影子識別出鏡子前的動物是貓。
![]()
第二,理解和推理能力。
豆包視覺理解模型不僅可以識別內容,還可以根據識別的文字和圖像信息進行復雜的邏輯計算。
例如豆包視覺理解模型可以理解圖片中的問題,能夠根據提示詞進行對應的推理計算,給出數學和物理題目的答案和思路。
![]()
第三,視覺描述和創作能力。
豆包視覺理解模型有視覺描述和創作能力,可以為一款文創產品寫出對應的祝福語。
據譚待透露,在過去兩個月里,火山引擎已經邀請了數百家企業對豆包視覺理解模型進行了測試,并找到了不少有價值的應用場景。
![]()
02視覺大模型進入厘時代
在大會現場,譚待重點介紹了豆包視覺理解模型在教育、旅游、電商三大應用場景中的應用:
在教育場景,豆包視覺理解模型可以優化傳統的拍照搜題功能,也可以進一步對孩子的作業進行批改和針對性輔導,例如幫助孩子優化作文。
![]()
在旅游場景,豆包視覺理解模型可以幫我們在國外點菜時看外文菜單,當我們參觀一些知名建筑或景點時,它也可以告訴我們這些建筑和景點的背景知識。
![]()
在電商場景,豆包對于商家想要推銷的商品,根據它的產品特性生成對應的營銷和直播話術。
![]()
此外,在諸如金融、醫療、教育、建筑、體育、物流等更多行業,火山引擎也正在探索豆包的場景應用可能。
![]()
2024年,國內大模型在價格戰的推動下迎來了一波市場下沉,這波價格戰的源頭正是今年5月豆包的大幅降價。
彼時,豆包主力模型在企業市場的定價為0.0008元/千Tokens,由此引起了大模型的價格戰。
用譚待的話說就是,“我們把整個行業的價格降低了99%,降低到了一個合理的水平。”
這次,火山引擎想要再次將視覺模型價格打下來,定價為0.03元/千Tokens。
![]()
譚待說,今天視覺理解模型也將正式進入到了厘時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.