<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      測評豆包1.6:我用它開發了一個“聰明的旅行策劃Agent”

      0
      分享至

      最近一周,大家拿大模型玩得最多的估計就是評測不同模型寫作文和做數學題了,不過作文的優劣評價太過主觀,很容易引起很多爭議;數學題有確定性可評估的指標,所以挺值得拿來讓國內外各大模型競技下的。

      在所有這些評測里,我覺得卡茲克是評測得最充分的,讓我沒想到的是前三居然都是國產模型,尤其是第一名是豆包1.5-thinking-pro,可能字節在產品上做得太好了,讓人忘了他們大模型的能力本身也夠強的。

      然后這幾天,我又看到火山Force大會,發現他們還推出了豆包大模型1.6,這個模型有三個值得一說的特性:

      1、推理能力更強了,在基準測試上相比前一代有不少提升,在GPQA Diamond評測中拿下81.5分,AIME25中拿下86.3,都是SOTA級別的表現。

      2、自適應思考,模型調用時可以選擇思考(thinking)、不思考(non-thinking)、自適應思考(auto)這三種模式,和Claude選擇的策略類似,因為就像人類一樣,在簡單的任務上通過系統一進行直覺式思考,在復雜任務上選擇深思熟慮的系統二思考模式,我覺得這會是大多數模型后續的發展方向,思考與不思考不應該是人為選擇,而是模型自動根據任務復雜度去考慮的策略。

      3、計價模式有創新,根據輸入和輸出的token長度分段計較,在輸入token在32k以內的情況下,價格比DeepSeek還便宜不少,這對做AI產品的開發者來說是個好消息。

      模型的思考和推理能力算是AI Coding、Agent模型所必需的核心,所以我這次特意想測測看,拿豆包1.6試試看他執行真正有難度,不能一步完成的Agent任務,看看他到底怎么樣的。

      實操目標:構建一個聰明的旅行策劃Agent

      我這次想拿豆包1.6構建個搞定一切的旅行Agent,試試看他能做到什么程度。

      之所以選這個任務,是我前兩個月在即刻發了條動態說用AI制定旅行計劃可能是個偽需求,但沒想到遭遇了大量的不同看法,看起來對這個場景有需要的用戶數還不少,所以我覺得針對這個場景做個agent應該挺好玩的。

      這次我希望構建的旅行Agent需要至少滿足我四個要求:

      1、我希望他能根據我的出發時間和回程時間要求,提供合理的航班選擇

      2、他的旅行計劃應該是結合真實天氣推薦的,不然要是大雨天推薦我去爬山或徒步不是扯淡么

      3、他構建的旅行路程應該是合理的,比如去北京別給我整出上午頤和園,中午長城,下午故宮的離譜規劃

      4、我希望獲得一個圖文并茂的形成規劃,不只是干巴巴的文字計劃

      為了達成這個目標,大家應該能理解但靠大模型是實現不了的,就像你雇傭一個很聰明,但是沒去過巴厘島的清北畢業生給你做巴厘島旅行規劃,如果你把他關在斷網的小黑屋里,任他想破腦袋,他也沒法思考出行程。你需要給他「工具」,給他「電腦」,讓他能聯網搜索需要的信息。

      而對大模型來說,MCP便是他們的工具,豆包1.6模型支持MCP的調用,或者說,一個支持MCP調用的模型,一堆MCP算是現在構建任何Agent的標配了。

      火山引擎提供了一個MCP Market,上面已經接入了200多個主流MCP,即允許你直接在火山上調用,也可以一鍵安裝到Trae、Cursor等AI Coding工具。

      對于我這項旅行Agent開發需求來說,我打算拿Trae做開發(他們已經接入豆包大模型1.6),然后選擇這四個和我任務有關的MCP:

      1、飛常準 MCP:用來查詢和選擇航班

      2、氣象 MCP:用來查未來的目的地天氣輔助景點選擇

      3、高德地圖 MCP:用來選擇景點和餐廳、規劃合理的路線

      4、veFaaS MCP:用戶一鍵部署上線Agent制定的旅行計劃

      現在MCP的部署過程也算是夠簡單的,你只需要在火山的MCP Market找到對應的MCP,比如高德地圖這個:

      1)點擊生成

      2)前往高德地圖開放平臺獲取APIkey

      3)你將獲取到一串Json代碼,點擊「去Trae配置」(如果你還沒安裝Trae,可以先裝一個,這是字節的AI IDE工具)

      4)在Trae完成最后一步「確認」,你的MCP就裝好了

      不同MCP的安裝過程大同小異,有更簡單的你甚至不需要獲取任何key的,也有需要你自己去復制Json代碼,然后主動在Trae添加的,但都很容易理解,這些MCP一個個安裝完成后的狀態如下:

      Prompt提示詞

      接下來就是魔法發生的時刻,你只需要在Trae中選擇豆包大模型1.6,發出你的提示詞,然后等待這個Agent的表現就好了。我這次根據我自己的需求,給Trae的提示詞如下:

      請幫我用HTML生成一個從北京到大理游玩的旅行計劃,我的需求如下:
      1、我想在6月15號早上11點左右從北京飛大理(我不想起太早),6月18號晚上21點前回到北京。
      2、請為我提供出發航班和回程航班的選擇推薦
      3、請用氣象MCP為我提供6.15-6.18期間大理當地的天氣信息,并在網頁中展示
      4、請結合天氣狀態制定旅行計劃,我希望每天最多只訪問2個景點,2個景點之間的開車時間應該在30分鐘以內
      5、請使用高德地圖MCP為我根據景點情況選擇當地有特色評分高的餐廳、咖啡館,要距離當天要訪問的景點開車20分
      6、為我生成旅行計劃的路線圖,包括去的景點和餐廳的照片,我希望能圖文并茂地展示在HTML網頁上

      這段prompt是我手打的,我還挺喜歡自己寫Prompt,并且經常嘗試不同的prompt對模型表現的影響的,不過我估計很多人會對寫prompt感到困擾,尤其是當你接觸自己不熟悉的領域知識時,火山提供了個promptpilot的功能,可以幫你把簡單的需求(左側),優化調校到更豐富帶有領域知識的豐富prompt提示詞。

      Agent體驗

      Trae上接入的豆包1.6看起來是auto模式的,會根據用戶提供的任務復雜度自主確定是否思考,顯然我這個需求是需要多步驟才能完成的復雜任務,所以我看ta是先思考了一段任務的todo list之后再開始執行的。這里多說一句,未來會有越來越多的用戶任務是無法一次性完成的,所以模型是否有自主規劃,通過多步驟實現一個目標的能力會是很影響模型實際任務表現的指標。

      接下來,Trae為了完成我的目標,一次性幫我完成了10多次的MCP調用,而且從這部分的語言表達,你可以明確看出ta好像真的知道自己在做什么,每次只完成一個小任務,再不斷把收集到的信息進行拼接。

      最后完成的網頁設計效果如下,你可以感受下:

      說實話,這個頁面還有不少不足,比如:1)圖片的選擇不太準確,文字和圖片不是太匹配;2)還未提供實際的旅行地圖,目前用了個圖片替代。

      不過這兩個問題還可以通過進一步的對話和提要求去解決,一次對話能完成到這個程度還挺超出我預期的,包括:

      1)真的圖文并茂,生成的網頁中有圖這一點很難得;

      2)在我只要求html網頁,對網頁設計沒做明確要求的情況下,網頁設計相當不錯,UI品味我覺得和Claude4,以及新的DeepSeek R1相近;

      3)在一次任務里完成這么多MCP工具的調用,推薦的航班信息和景點、餐廳信息都挺準確的,這很難得。

      在完成網頁設計后,你可以通過自然語言讓Trae調用veFaaS去自動構建后端,幫你把本地的html文件打包部署為可訪問的頁面,分享給你同行的朋友,Trae會自動調用veFaaS MCP幫你完成對應過程:

      最后,我還通過自己的方式把這個網頁部署到我自己的域名下,你可以嘗試下看看最終的交互效果:https://doubao.bookai.top/dali_travel_plan.html

      綜合測試下來,我覺得現在國內進行Agent開發的生態真的已經到了成熟,準備起飛的階段了。以豆包1.6來說,ta的推理能力、編程能力、視覺審美,以及多模態的圖片理解能力,以及很適合企業、開發者用來做Agent的快速開發和測試了,大模型是所有Agent的基石。

      而在基石之上,則可認為是生態,尤其是以MCP為代表的大模型工具市場,火山方舟提供的MCP,串聯起了Agent的“思考—執行—展示”全流程,讓Agent落地路徑標準化了不少。

      我這兩天還看了Cursor CEO Michael Truell接受硅谷孵化器YC CEO的訪談節目,他提到在AI時代,真正區分人與人之間差別的是「Taste品味」,因為現在AI 已經能生成幾乎任何代碼,但它永遠不能替你決定:“我們應該做一個什么樣的產品?”

      說到底,從大模型思考,到MCP執行任務,到網頁最終上線,整個開發鏈路我幾乎沒有碰傳統后端,也沒有寫一行部署代碼,全流程就是:豆包1.6 ? MCP調度 ? Trae開發 ? veFaaS部署

      這種“AI云原生”的Agent開發范式,正在慢慢取代傳統開發邏輯:你不再需要自己拼數據源、搭部署環境,只需要組合已有組件、發出準確指令。如果說大模型是大腦,MCP是手腳,veFaaS就是它的居所。而Trae把這一切都織成了完整的生產鏈。

      如果你也想上手做點什么,不妨把“AI云原生”當作你新項目的起點。

      所以,有了這些生態和工具后,你想好要去創造點什么了嘛?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      腦梗跟戴帽子有關?醫生警告:60歲后,天冷要注意這3件事

      腦梗跟戴帽子有關?醫生警告:60歲后,天冷要注意這3件事

      看世界的人
      2025-11-26 10:05:37
      快扔掉!戴一天,輻射量相當于拍117次胸片

      快扔掉!戴一天,輻射量相當于拍117次胸片

      FM93浙江交通之聲
      2025-10-28 00:01:43
      每體:弗拉霍維奇曾被推薦給巴薩,但球員即將和米蘭達成協議

      每體:弗拉霍維奇曾被推薦給巴薩,但球員即將和米蘭達成協議

      懂球帝
      2025-12-15 01:14:12
      又要交易?二年級的克內克特,表現什么水平?

      又要交易?二年級的克內克特,表現什么水平?

      籃球實錄
      2025-12-14 23:39:55
      山東醫院十強曝光,濟南霸占四席!

      山東醫院十強曝光,濟南霸占四席!

      醫脈圈
      2025-12-14 20:05:07
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      情況突變,大批售臺軍火被扣押,美軍敗局已定,賴清德輸了個精光

      情況突變,大批售臺軍火被扣押,美軍敗局已定,賴清德輸了個精光

      影孖看世界
      2025-12-13 20:33:48
      新華社快訊:悉尼槍擊事件一名槍手身份已確認

      新華社快訊:悉尼槍擊事件一名槍手身份已確認

      新華社
      2025-12-14 18:45:18
      祝賀!42歲尼格買提高調迎喜訊,央媒親自發文,看來撒貝寧說對了

      祝賀!42歲尼格買提高調迎喜訊,央媒親自發文,看來撒貝寧說對了

      小椰的奶奶
      2025-12-12 06:47:16
      趙心童領銜雷佩凡衛冕,中國17人爭奪冠軍

      趙心童領銜雷佩凡衛冕,中國17人爭奪冠軍

      郭夷包工頭
      2025-12-15 05:42:22
      眉骨縫了三針!徐杰更新社媒報平安:“新賽季 為廣東而戰”

      眉骨縫了三針!徐杰更新社媒報平安:“新賽季 為廣東而戰”

      狼叔評論
      2025-12-15 01:10:11
      92歲老人收藏的1982年全新奔馳500SL

      92歲老人收藏的1982年全新奔馳500SL

      MOTO
      2025-11-11 17:11:34
      美國議員直言:讓烏克蘭割地,像1938年的慕尼黑協定

      美國議員直言:讓烏克蘭割地,像1938年的慕尼黑協定

      桂系007
      2025-12-14 23:24:31
      日企集體加速撤離?又一家電巨頭關停中國工廠,央媒早有警告

      日企集體加速撤離?又一家電巨頭關停中國工廠,央媒早有警告

      燕梳樓頻道
      2025-12-12 18:06:43
      換了3臺冰箱,我終于悟了:寧可不買大的,冰箱也絕不能放這3處

      換了3臺冰箱,我終于悟了:寧可不買大的,冰箱也絕不能放這3處

      室內設計師有料兒
      2025-12-14 11:07:25
      宋軼的臉到底怎么了?她一句話讓全網炸鍋!

      宋軼的臉到底怎么了?她一句話讓全網炸鍋!

      毒舌八卦
      2025-08-31 22:34:38
      佳能中山工廠搬離,保潔阿姨補償30萬,員工排隊致謝

      佳能中山工廠搬離,保潔阿姨補償30萬,員工排隊致謝

      西門老爹
      2025-12-14 13:58:00
      芋頭再次被關注!研究發現:常吃芋頭的人,不用多久,或有4改善

      芋頭再次被關注!研究發現:常吃芋頭的人,不用多久,或有4改善

      阿兵科普
      2025-12-11 21:10:08
      德羅西:國米配得上勝利;社媒評論就像是毒藥,別再跟我提它

      德羅西:國米配得上勝利;社媒評論就像是毒藥,別再跟我提它

      懂球帝
      2025-12-15 06:13:06
      A股熱股榜十大熱門股

      A股熱股榜十大熱門股

      和訊網
      2025-12-14 21:30:16
      2025-12-15 06:36:49
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      95文章數 40關注度
      往期回顧 全部

      科技要聞

      當人形機器人有了App Store,宇樹在賭什么

      頭條要聞

      澳海灘槍擊驚魂50分鐘:槍手占據天橋向下掃射

      頭條要聞

      澳海灘槍擊驚魂50分鐘:槍手占據天橋向下掃射

      體育要聞

      馬刺終結雷霆:以勇猛,以文班亞馬

      娛樂要聞

      何晴生前最大謠言!沒有再婚嫁廖京生

      財經要聞

      重大違法強制退市!10人被判刑

      汽車要聞

      硬核敞篷巴士?擲彈兵Game Viewer 2026年初量產

      態度原創

      家居
      藝術
      教育
      數碼
      軍事航空

      家居要聞

      溫潤質感 打造干凈空間

      藝術要聞

      才女一生未嫁,畫史鑄就傳奇

      教育要聞

      四川考生600分能上什么大學?三大類院校精準拆解

      數碼要聞

      Beats攜手IShowSpeed合作短片 《速穩風云》全球上線

      軍事要聞

      3名美方人員遇襲死亡 特朗普誓言報復

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜免费福利小电影| 又大又粗又爽的少妇免费视频| 欧美丰满少妇人妻精品| 97无码| 甘孜县| 国产精品日本熟女| 久久亚洲精品中文字幕波多野结衣| 青草伊人网| 人妻少妇精品无码| 久久婷婷五月综合97色直播| 高清无码18| 久久久久久久久久久久中文字幕| 亚洲欧美成人一区二区三区| 色偷偷亚洲男人的天堂| 大地资源网第二页免费观看| 91视频www| 亚洲另类欧美综合久久图片区| 邮箱| 东京热大乱w姦| 69精品人人人人人| 亚洲成人色情| 国产精品午夜福利免费看 | 蜜桃av秘?无码一区二区三区| 久久人人爽人人爽人人片av| Jizz日本18| 奇骏影院在线观看免费版| 1024福利导航| av女人的天堂| 亚洲第一网站| 麻花传媒在线观看免费| 日韩成人无码中文字幕 | 久久99老妇伦国产熟女| 色色狠狠| 国产综合久久久久鬼色| 久久精品一卡二卡| 亚洲成人A∨| 安岳县| 少妇做爰免费视看片| 色琪琪丁香婷婷综合久久| 中文字幕人妻无码一区二区三区| 精品婷婷色一区二区三区蜜桃|