最近一周,大家拿大模型玩得最多的估計就是評測不同模型寫作文和做數學題了,不過作文的優劣評價太過主觀,很容易引起很多爭議;數學題有確定性可評估的指標,所以挺值得拿來讓國內外各大模型競技下的。
在所有這些評測里,我覺得卡茲克是評測得最充分的,讓我沒想到的是前三居然都是國產模型,尤其是第一名是豆包1.5-thinking-pro,可能字節在產品上做得太好了,讓人忘了他們大模型的能力本身也夠強的。
然后這幾天,我又看到火山Force大會,發現他們還推出了豆包大模型1.6,這個模型有三個值得一說的特性:
1、推理能力更強了,在基準測試上相比前一代有不少提升,在GPQA Diamond評測中拿下81.5分,AIME25中拿下86.3,都是SOTA級別的表現。
2、自適應思考,模型調用時可以選擇思考(thinking)、不思考(non-thinking)、自適應思考(auto)這三種模式,和Claude選擇的策略類似,因為就像人類一樣,在簡單的任務上通過系統一進行直覺式思考,在復雜任務上選擇深思熟慮的系統二思考模式,我覺得這會是大多數模型后續的發展方向,思考與不思考不應該是人為選擇,而是模型自動根據任務復雜度去考慮的策略。
3、計價模式有創新,根據輸入和輸出的token長度分段計較,在輸入token在32k以內的情況下,價格比DeepSeek還便宜不少,這對做AI產品的開發者來說是個好消息。
模型的思考和推理能力算是AI Coding、Agent模型所必需的核心,所以我這次特意想測測看,拿豆包1.6試試看他執行真正有難度,不能一步完成的Agent任務,看看他到底怎么樣的。
實操目標:構建一個聰明的旅行策劃Agent
我這次想拿豆包1.6構建個搞定一切的旅行Agent,試試看他能做到什么程度。
之所以選這個任務,是我前兩個月在即刻發了條動態說用AI制定旅行計劃可能是個偽需求,但沒想到遭遇了大量的不同看法,看起來對這個場景有需要的用戶數還不少,所以我覺得針對這個場景做個agent應該挺好玩的。
這次我希望構建的旅行Agent需要至少滿足我四個要求:
1、我希望他能根據我的出發時間和回程時間要求,提供合理的航班選擇
2、他的旅行計劃應該是結合真實天氣推薦的,不然要是大雨天推薦我去爬山或徒步不是扯淡么
3、他構建的旅行路程應該是合理的,比如去北京別給我整出上午頤和園,中午長城,下午故宮的離譜規劃
4、我希望獲得一個圖文并茂的形成規劃,不只是干巴巴的文字計劃
為了達成這個目標,大家應該能理解但靠大模型是實現不了的,就像你雇傭一個很聰明,但是沒去過巴厘島的清北畢業生給你做巴厘島旅行規劃,如果你把他關在斷網的小黑屋里,任他想破腦袋,他也沒法思考出行程。你需要給他「工具」,給他「電腦」,讓他能聯網搜索需要的信息。
而對大模型來說,MCP便是他們的工具,豆包1.6模型支持MCP的調用,或者說,一個支持MCP調用的模型,一堆MCP算是現在構建任何Agent的標配了。
火山引擎提供了一個MCP Market,上面已經接入了200多個主流MCP,即允許你直接在火山上調用,也可以一鍵安裝到Trae、Cursor等AI Coding工具。
對于我這項旅行Agent開發需求來說,我打算拿Trae做開發(他們已經接入豆包大模型1.6),然后選擇這四個和我任務有關的MCP:
1、飛常準 MCP:用來查詢和選擇航班
2、氣象 MCP:用來查未來的目的地天氣輔助景點選擇
3、高德地圖 MCP:用來選擇景點和餐廳、規劃合理的路線
4、veFaaS MCP:用戶一鍵部署上線Agent制定的旅行計劃
現在MCP的部署過程也算是夠簡單的,你只需要在火山的MCP Market找到對應的MCP,比如高德地圖這個:
1)點擊生成
2)前往高德地圖開放平臺獲取APIkey
3)你將獲取到一串Json代碼,點擊「去Trae配置」(如果你還沒安裝Trae,可以先裝一個,這是字節的AI IDE工具)
4)在Trae完成最后一步「確認」,你的MCP就裝好了
不同MCP的安裝過程大同小異,有更簡單的你甚至不需要獲取任何key的,也有需要你自己去復制Json代碼,然后主動在Trae添加的,但都很容易理解,這些MCP一個個安裝完成后的狀態如下:
Prompt提示詞
接下來就是魔法發生的時刻,你只需要在Trae中選擇豆包大模型1.6,發出你的提示詞,然后等待這個Agent的表現就好了。我這次根據我自己的需求,給Trae的提示詞如下:
請幫我用HTML生成一個從北京到大理游玩的旅行計劃,我的需求如下:
1、我想在6月15號早上11點左右從北京飛大理(我不想起太早),6月18號晚上21點前回到北京。
2、請為我提供出發航班和回程航班的選擇推薦
3、請用氣象MCP為我提供6.15-6.18期間大理當地的天氣信息,并在網頁中展示
4、請結合天氣狀態制定旅行計劃,我希望每天最多只訪問2個景點,2個景點之間的開車時間應該在30分鐘以內
5、請使用高德地圖MCP為我根據景點情況選擇當地有特色評分高的餐廳、咖啡館,要距離當天要訪問的景點開車20分
6、為我生成旅行計劃的路線圖,包括去的景點和餐廳的照片,我希望能圖文并茂地展示在HTML網頁上這段prompt是我手打的,我還挺喜歡自己寫Prompt,并且經常嘗試不同的prompt對模型表現的影響的,不過我估計很多人會對寫prompt感到困擾,尤其是當你接觸自己不熟悉的領域知識時,火山提供了個promptpilot的功能,可以幫你把簡單的需求(左側),優化調校到更豐富帶有領域知識的豐富prompt提示詞。
Agent體驗
Trae上接入的豆包1.6看起來是auto模式的,會根據用戶提供的任務復雜度自主確定是否思考,顯然我這個需求是需要多步驟才能完成的復雜任務,所以我看ta是先思考了一段任務的todo list之后再開始執行的。這里多說一句,未來會有越來越多的用戶任務是無法一次性完成的,所以模型是否有自主規劃,通過多步驟實現一個目標的能力會是很影響模型實際任務表現的指標。
接下來,Trae為了完成我的目標,一次性幫我完成了10多次的MCP調用,而且從這部分的語言表達,你可以明確看出ta好像真的知道自己在做什么,每次只完成一個小任務,再不斷把收集到的信息進行拼接。
最后完成的網頁設計效果如下,你可以感受下:
說實話,這個頁面還有不少不足,比如:1)圖片的選擇不太準確,文字和圖片不是太匹配;2)還未提供實際的旅行地圖,目前用了個圖片替代。
不過這兩個問題還可以通過進一步的對話和提要求去解決,一次對話能完成到這個程度還挺超出我預期的,包括:
1)真的圖文并茂,生成的網頁中有圖這一點很難得;
2)在我只要求html網頁,對網頁設計沒做明確要求的情況下,網頁設計相當不錯,UI品味我覺得和Claude4,以及新的DeepSeek R1相近;
3)在一次任務里完成這么多MCP工具的調用,推薦的航班信息和景點、餐廳信息都挺準確的,這很難得。
在完成網頁設計后,你可以通過自然語言讓Trae調用veFaaS去自動構建后端,幫你把本地的html文件打包部署為可訪問的頁面,分享給你同行的朋友,Trae會自動調用veFaaS MCP幫你完成對應過程:
最后,我還通過自己的方式把這個網頁部署到我自己的域名下,你可以嘗試下看看最終的交互效果:https://doubao.bookai.top/dali_travel_plan.html
綜合測試下來,我覺得現在國內進行Agent開發的生態真的已經到了成熟,準備起飛的階段了。以豆包1.6來說,ta的推理能力、編程能力、視覺審美,以及多模態的圖片理解能力,以及很適合企業、開發者用來做Agent的快速開發和測試了,大模型是所有Agent的基石。
而在基石之上,則可認為是生態,尤其是以MCP為代表的大模型工具市場,火山方舟提供的MCP,串聯起了Agent的“思考—執行—展示”全流程,讓Agent落地路徑標準化了不少。
我這兩天還看了Cursor CEO Michael Truell接受硅谷孵化器YC CEO的訪談節目,他提到在AI時代,真正區分人與人之間差別的是「Taste品味」,因為現在AI 已經能生成幾乎任何代碼,但它永遠不能替你決定:“我們應該做一個什么樣的產品?”
說到底,從大模型思考,到MCP執行任務,到網頁最終上線,整個開發鏈路我幾乎沒有碰傳統后端,也沒有寫一行部署代碼,全流程就是:豆包1.6 ? MCP調度 ? Trae開發 ? veFaaS部署。
這種“AI云原生”的Agent開發范式,正在慢慢取代傳統開發邏輯:你不再需要自己拼數據源、搭部署環境,只需要組合已有組件、發出準確指令。如果說大模型是大腦,MCP是手腳,veFaaS就是它的居所。而Trae把這一切都織成了完整的生產鏈。
如果你也想上手做點什么,不妨把“AI云原生”當作你新項目的起點。
所以,有了這些生態和工具后,你想好要去創造點什么了嘛?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.