![]()
Andrej Karpathy又在周末整活了,為了跟進(jìn)之前的推文(昨天的文章),他通過Vibe Coding手搓了一個(gè)名為 llm-council(大模型議會)的Web應(yīng)用,目的是為了好玩和獲取更好的答案。多個(gè)模型像顧問一樣提供建議,你可以把它理解為個(gè)人的“智囊團(tuán)”
這個(gè)應(yīng)用界面看起來和ChatGPT一模一樣,但背后的運(yùn)行機(jī)制完全不同。你的每一次查詢,都會通過OpenRouter分發(fā)給“委員會”中的多個(gè)大模型成員。
以目前的配置為例,成員包括:
? OpenAI/GPT-5.1
? Google/Gemini-3-pro-preview
? Anthropic/Claude-sonnet-4.5
? x-AI/Grok-4
具體的工作流是這樣的:
第一步,查詢被分發(fā)給上述所有模型。
第二步,所有模型都能看到彼此(匿名化處理后)的回復(fù),然后它們會對這些回復(fù)進(jìn)行審閱和排名。
第三步,一位 “大模型主席”(Chairman LLM)會獲取所有上下文信息,并生成最終的回復(fù)。
“智囊團(tuán)”的運(yùn)行效果
Karpathy表示,在同一個(gè)查詢下并排看到多個(gè)模型的結(jié)果非常有趣。更逗的是,看它們互相評估和排名的過程。
結(jié)果顯示,模型們通常非常樂意承認(rèn)其他LLM的回答優(yōu)于自己。這也讓這種方法成為一種頗具意思的模型評估策略
實(shí)測案例
在今天用“大模型委員會”閱讀書籍章節(jié)的測試中:
![]()
模型們的共識:一致推選 GPT-5.1 為最佳、最有洞察力的模型;同時(shí)一致認(rèn)為 Claude 的表現(xiàn)最差,其他模型介于兩者之間
Karpathy的體感:并不完全認(rèn)同模型的評判。定性來看,他覺得 GPT-5.1 有點(diǎn)過于啰嗦和鋪陳;Gemini 3 則更加凝練和經(jīng)過處理;而在該領(lǐng)域下,Claude 的回答確實(shí)太簡短了
Karpathy認(rèn)為,“大模型智囊團(tuán)”的數(shù)據(jù)流設(shè)計(jì)空間非常廣闊,目前關(guān)于LLM集成的構(gòu)建似乎還處于探索不足的階段。
目前,該項(xiàng)目代碼已開源。
項(xiàng)目地址:
https://github.com/karpathy/llm-council
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.