<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

^{<blockquote id="ooqhw"></blockquote>}

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

LLM創造力可以被度量嗎？一個基于提示詞變更的探索性實驗

2026-02-12 21:08:30　來源: deephub

北京舉報

0

分享至

大語言模型在demo階段總是看起來很驚艷。但一旦進入到生產環境很多問題就暴露了：不穩定、不可預測，甚至直接不可用。

從實踐來看，核心問題很少出在模型本身。更多時候是在于如何設計、評估和迭代應用模型的提示詞。LLM應用的輸入提示詞必須適配具體任務，才能讓模型在期望的輸出范圍內工作。

提示詞工程在今天基本還是被當作一種"藝術"。這篇文章要討論的就是為什么這是個問題，以及怎么把它變成一門可度量的工程學科。

提示詞工程仍然是猜測

大多數團隊的提示詞改進流程其實很粗糙：有人寫（或重寫）提示詞，跑幾個例子，主觀覺得"感覺好了一些"，然后就上線了。

沒有度量標準，沒有基線，也沒有對"更好"的明確定義。

這帶來的直接后果是：提示詞質量難以對比，評估基本靠外部響應來判斷，回歸問題不容易察覺，很多故障等到上線后才被發現。

提示詞工程本質上極度主觀，如果目標是構建可靠的AI系統，這就成了一個嚴重的瓶頸。

實際LLM使用中的兩個對立問題

在生產環境里跑LLM，我發現有兩個反復出現的問題。

不一致性：同一個提示詞，不同的答案

同一條提示詞跑多次會產生明顯不同的輸出。這不只是煩人的問題，而是對數據流水線、自動化決策系統、評估框架來說，這是實打實的可靠性風險。

高方差在這類場景下是bug不是feature。模型要么表現出確定性行為，要么至少得在可控范圍內運行。

缺乏多樣性：模型不夠有創造力

反過來，有好幾個實際項目中碰到了相反的困境：做創意生成、探索性分析、創意制作這類任務時，模型產出的內容彼此過于相似，概念覆蓋面非常窄。一旦規模化，創造力就丟得干干凈凈。

這時候確定性就從優勢變成了束縛。

一個簡單的假設

提示詞質量應該是可衡量的。

有些任務需要最小化輸出方差，有些任務需要最大化多樣性，而提示詞的變更應該能推動結果朝可度量的方向移動。不同類型的任務也可以選擇不同的度量標準。

既然模型行為可以衡量，提示詞行為為什么不能？

為了驗證這個想法，我選了模型行為的一個切面來入手：響應多樣性，把它當作創造力的代理指標。

目標不是找到完美的度量方式，而是回答兩個問題：提示詞變更能不能轉化為一致的數值差異？單次任務上的創造力/確定性到底取決于提示詞還是僅取決于溫度？

實驗設置

實驗規模不大，設計如下：

提示詞

提示詞A：

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."

提示詞B在A的基礎上加了一條指令：

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."

模型和采樣

采用單次生成模式，測試了多個LLM（具體型號這里略過），溫度分別設為0 × max、0.5 × max和1 × max。每個（提示詞、模型、溫度）組合跑10次。

測試集選了4個主流模型家族的13個模型：OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列，以及Deepseek。

通過Embedding衡量多樣性

每條生成結果都計算了4096維的embedding向量。然后對每個實驗集（固定提示詞、模型和溫度），取集合內embedding的最大成對距離作為響應多樣性的度量。

邏輯很簡單：距離小說明行為高度確定，距離大說明輸出多樣且有創造力。最終得到一個數值，描述模型響應的"分散程度"。

結果

匯總表，創意提示詞版本導致了更顯著的分散。同時溫度并不總起作用。

基礎提示詞和創意提示詞在模型-溫度切片上的比較圖。

每個模型在不同溫度水平上的響應分散圖

結果比預期要清晰得多。

跨模型來看有三個明顯趨勢：在提示詞中加入明確的創造力指令，曲線一致上移；提高溫度在一定程度上增大了響應多樣性，但受限于小樣本，這個結論還需謹慎看待；各模型對溫度變化的響應方式差異很大沒有統一規律。

提示詞變更帶來的是可預測的數值效果，而非隨機噪聲。

這說明兩件事：提示詞迭代不必完全依賴直覺，輸出創造力是可量化的；這一假設有可能推廣到更大的樣本和不同的應用場景。

這套方法的實際意義在于：提示詞可以通過數值做A/B測試，溫度調優有了度量依據而不是靠猜，模型選擇可以由任務需求驅動而非跟風。

它讓團隊能在提示詞變更上線之前就對效果做出推斷。

局限性

結果雖然是正向的但有幾個局限

度量標準的任務特定性

這里定義的"創造力"嚴格來說是任務相關的。用embedding距離衡量的響應多樣性，在創意生成、營銷創意、探索性任務上作為創造力的代理指標還算合理，但在事實性問答、代碼生成、結構化數據提取這些場景下可能毫無意義，甚至會產生誤導。

不能把它當成模型質量的通用指標。目前我也在測試其他面向不同任務的度量標準。

對Embedding空間的依賴

所有測量都建立在特定embedding模型和距離度量之上。換用不同的embedding模型、向量歸一化方式或距離函數，絕對值也是會變的，所以模型間的相對排名也可能有所不同。

但本實驗中觀察到的趨勢是穩定的，所以結果應當按相對值來解讀，不宜絕對化。

有限的樣本量

每個配置只跑了有限次數。趨勢雖然一致，但要減少方差、估計置信區間、得出統計上站得住的結論，樣本量還遠遠不夠。當前的發現更多是探索性的，不是定論。

提示詞和領域偏差

實驗只用了一種任務表述和一個窄領域（效果營銷創意）。換到其他領域或提示詞風格，效果可能更弱、更強，也可能呈現完全不同的行為模式。把這些結論向創意任務之外推廣需要格外謹慎。

創造力與實用性的權衡

響應多樣性高不等于結果好。高度多樣化的輸出里可能混著不相關的想法、低質量的建議和不連貫的回復。這個實驗測的是方差，不是實用性更不是商業價值。實際應用中創造力度量必須和質量過濾或下游評估配合使用。

LLM的非平穩性

大語言模型會被提供商持續更新，所以絕對分數可能隨時間漂移，分數可能在提示詞沒改的情況下發生變化，可復現性也可能下降。任何長期的基準測試工作都必須把這種非平穩性納入考量。

相關性不意味著因果性

最后要說的是，溫度、提示詞指令和響應多樣性之間雖然有明確的相關性，但這不代表對模型行為有了完整的因果理解。實驗證明的是"提示詞變更可以被衡量"，而不是創造力可以被這套度量標準完全解釋。

總結

這只是一系列研究的第一個實驗，后續結果會在接下來的文章中陸續呈現。下一步計劃：增加樣本量，嘗試不同的提示詞，實驗如何降低創造力，為其他類型任務定義新的度量標準，以及構建一個定期更新的模型排行榜來覆蓋各項指標。

https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9

作者：Alexey Konoshenkov

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

汽車行駛途中突然"斷電" 車輛瞬間失去動力一家人嚇傻

大風新聞 2026-03-06 13:45:07
7094 跟貼 7094
剛下飛機行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環球網資訊 2026-03-03 08:53:57
5886 跟貼 5886

央行行長：中國股票市場在全球主要股市中表現較好

財聯社 2026-03-06 17:08:03
7609 跟貼 7609

機構：霍爾木茲海峽航運幾乎完全停滯

財聯社 2026-03-06 14:04:07
6664 跟貼 6664
男子犯困開智駕，以100km/h速度扎進施工區：事故發生后未能及時接管車輛，連撞30米長水馬都沒停，視頻曝光

大風新聞 2026-03-07 10:05:02
102 跟貼 102

馬斯克都破防！王堅院士笑談美國電網：電的基礎設施制造業都在中國

界面新聞 2026-03-06 14:32:04
181 跟貼 181

租用無人機運棺材上山土葬，無人機運輸從業者：價格一萬出頭，一般運送的棺材約七八百斤，云貴川需求多

觀威海 2026-03-06 14:23:13
271 跟貼 271
蒙牛全資控股公司銷售"陰陽包裝"產品客服稱無法監管

大風新聞 2026-03-06 18:30:13
1492 跟貼 1492

中國女足3-0戰勝烏茲別克斯坦女足提前小組出線

央視新聞客戶端 2026-03-06 18:26:54
707 跟貼 707
極目調查丨老板瘋狂搶人，一天500元難招技工，廣州“制衣村”工人為何如此緊俏？

極目新聞 2026-03-06 22:41:34
837 跟貼 837
山姆1.38公斤冰塊賣37.9元，消費者稱比冰塊融化速度慢，而且顏值高，門店工作人員：銷量不錯，現貨極少

觀威海 2026-03-04 10:39:05
1313 跟貼 1313
今年高校畢業生預計1270萬

人民網-人民日報 2026-03-07 10:36:14
1736 跟貼 1736
財政部：今年中央本級三公經費壓減7%以上

新華社 2026-03-06 17:11:21
147 跟貼 147
美油升破85美元/桶創2年來最高水平

財聯社 2026-03-06 19:37:55
427 跟貼 427
所有省份已推行課間15分鐘

央視新聞客戶端 2026-03-07 11:05:42
4 跟貼 4
教育部：讓"班超""校超"燃動校園

央視新聞客戶端 2026-03-07 11:17:33
24 跟貼 24
去年高中階段教育毛入學率92%

新華社 2026-03-07 10:12:24
2 跟貼 2
人社部：正研究措施發揮人工智能創造新崗位

新華社 2026-03-07 10:31:07
11 跟貼 11
“耍小聰明”吃大虧，一司機因這個動作被罰

環球網資訊 2026-03-07 13:08:58
0 跟貼 0
大爺騎自行車高架上逆行：致多車連環追尾

快科技 2026-03-07 13:08:08
0 跟貼 0
長城汽車董事長魏建軍就海報抄襲路虎致歉：審核把關不嚴，愿承擔此次事件帶來的全部法律與經濟責任

極目新聞 2026-03-06 20:03:45
0 跟貼 0
安徽00后高速公路收費員回應“撞臉多個明星”：顏值只是加分項

封面新聞 2026-03-07 13:13:03
0 跟貼 0
陽泉120人員拒抬老人被判賠償未履行：急救底線不能止于“約談”

投資山西客戶端 2026-03-07 13:37:56
0 跟貼 0

伊朗最大“內鬼”被抓？革命衛隊：勾結以色列，指揮官卡尼被拘！

伊朗最大“內鬼”被抓？革命衛隊：勾結以色列，指揮官卡尼被拘！

青青子衿

2026-03-05 11:57:03

打瘋了！東契奇首節狂轟22+5三分生涯30次單節20+升歷史第四

打瘋了！東契奇首節狂轟22+5三分生涯30次單節20+升歷史第四

醉臥浮生

2026-03-07 12:13:33

伊拉克庫爾德第一夫人宣言：我們不是任人驅使的炮灰！

伊拉克庫爾德第一夫人宣言：我們不是任人驅使的炮灰！

勝研集

2026-03-06 13:44:23

廣東一女子不愿上班常年坐街邊，因長得好看被路人投喂：又懶又饞

廣東一女子不愿上班常年坐街邊，因長得好看被路人投喂：又懶又饞

明智家庭教育

2026-03-06 17:19:16

美以伊軍事沖突最大副作用，是斬斷了俄羅斯的“救命稻草”

美以伊軍事沖突最大副作用，是斬斷了俄羅斯的“救命稻草”

廖保平

2026-03-05 12:08:52

“不想為以色列賣命”：帝國最后的遮羞布，美式民主終成笑話

“不想為以色列賣命”：帝國最后的遮羞布，美式民主終成笑話

怪口歷史的K先生

2026-03-06 15:22:51

為何關閉霍爾木茲海峽就能掐全球脖子？因為伊朗原油是全世界最好的

為何關閉霍爾木茲海峽就能掐全球脖子？因為伊朗原油是全世界最好的

風向觀察

2026-03-06 21:31:15

兩會不到3天，5大好消息傳來！老百姓暗暗叫好：希望國家盡快落實

兩會不到3天，5大好消息傳來！老百姓暗暗叫好：希望國家盡快落實

談史論天地

2026-03-07 06:54:29

1979年，張國燾凍死在養老院，許世友：除了主席，沒人是他的對手

1979年，張國燾凍死在養老院，許世友：除了主席，沒人是他的對手

文史季季紅

2026-03-05 13:35:03

寫入教科書的一天：F-35在德黑蘭完成全球首次實戰空對空擊殺

寫入教科書的一天：F-35在德黑蘭完成全球首次實戰空對空擊殺

斌聞天下

2026-03-06 07:30:03

伊方：因美以襲擊喪生的伊朗人三成為青少年

伊方：因美以襲擊喪生的伊朗人三成為青少年

環球網資訊

2026-03-07 06:39:29

為什么美國的華人華裔地位那么低網友從各方面分析真就那樣

為什么美國的華人華裔地位那么低網友從各方面分析真就那樣

侃神評故事

2026-03-06 07:10:03

我包養過一個女大學生，七年花了一千多萬

我包養過一個女大學生，七年花了一千多萬

煙火人間故事匯

2026-03-06 23:05:03

性壓抑已經變態至此了？

黯泉

2026-03-07 11:28:43

蘿莉島，是進入核心圈層的投名狀，你猜他們為什么都穿紅皮鞋

蘿莉島，是進入核心圈層的投名狀，你猜他們為什么都穿紅皮鞋

百曉生談歷史

2026-03-05 22:00:08

一份“煮熟的三文魚”火了，原來低認知的家長，真能搞出人命！

一份“煮熟的三文魚”火了，原來低認知的家長，真能搞出人命！

妍妍教育日記

2026-03-07 08:45:06

伊朗萬萬沒想到，自家王牌武器遭到破解，美軍多了一張底牌

伊朗萬萬沒想到，自家王牌武器遭到破解，美軍多了一張底牌

空天力量

2026-03-06 13:09:18

上次被發現還是1911年！上海寶山驚現1只，專家：可能是坐船來的

上次被發現還是1911年！上海寶山驚現1只，專家：可能是坐船來的

萬象硬核本尊

2026-03-06 23:54:22

女子實名舉報某團外賣：不上大額券就讓我變成“凌晨營業”，你們真黑！

女子實名舉報某團外賣：不上大額券就讓我變成“凌晨營業”，你們真黑！

回旋鏢

2026-03-06 21:13:59

塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠，布朗24分7板7助

塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠，布朗24分7板7助

湖人崛起

2026-03-07 10:25:09

CV NLP和數據挖掘知識

1940文章數 1456關注度

往期回顧全部

科技要聞

OpenClaw爆火，六位"養蝦人"自述與AI共生

頭條要聞

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

頭條要聞

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

體育要聞

塔圖姆歸來：凱爾特人的春之綠

娛樂要聞

周杰倫田馥甄的“JH戀” 被扒得底朝天

財經要聞

針對"不敢休、不讓休"怪圈國家出手了

汽車要聞

逃離ICU，上汽通用“止血”企穩

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

教育

房產

健康

旅游

這些才是適合普通人的穿搭！搭配腰帶、多穿牛仔褲，簡單舒適

教育要聞

兩會速遞｜教育部部長：將實施新一輪學生心理健康促進行動

房產要聞

傳統學區房熄火？2月海口二手房爆火的板塊竟然是…

轉頭就暈的耳石癥，能開車上班嗎？

旅游要聞

文旅部部長：7名外國游客到上海旅游，買了40箱貨；“成為中國人”成了熱詞

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

^{<blockquote id="cq0y4"></blockquote>}