<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      人均不到3元!被AI作弊逼急的教授玩“邪修”:“花105元,給全班36人辦了場AI口試”

      0
      分享至


      編譯 | 鄭麗媛

      出品 | CSDN(ID:CSDNnews)

      最近,紐約大學斯特恩商學院數據科學教授 Panos Ipeirotis 遇到了一種“詭異的幸福”。

      在他與 Konstantinos Rizakos 聯合授課的全新課程《AI/ML 產品管理》上,學生們的課前作業質量突然整體飆升,好得有點反常:不是“優秀學生”的那種好,而是“像咨詢公司報告、被反復精修三輪”的那種好。

      于是,Panos 和 Konstantinos 干了一件十分原始的事情:課堂隨機點名,讓學生現場解釋自己寫的作業內容。結果非?!澳Щ谩保汉芏嘧鳂I看起來條理清晰、結構完美的學生,在被追問兩三個細節后就露餡了——連自己為什么這么做都講不清楚,還有些學生干脆全程“當機”。

      “這種現象不可能只是緊張或運氣不好”,Panos 直言:“如果一個人連自己交的作業都講不明白,那么這份書面作業,就根本沒測出我們想要評估的真實能力。”

      發現這個問題后,Panos 突然想到了幾個月前,芝加哥大學布斯大學商學院 Brian Jabarian 領導的一項研究結果:AI 在做招聘面試時,反而比人類更好,原因很簡單:人會累、有偏見、執行標準不一致,而 AI 不會。

      而這個結論,讓 Panos 他們產生了一個放在兩年前聽起來像笑話的想法:

      既然這樣,要不直接讓語音 AI 代理來當期末口試的考官?


      有人會問為什么現在口試?

      這個問題的核心,其實既簡單又殘酷:現在,學生可以隨時調用 LLM來應對傳統意義上的大部分考題,過去那種“通過課后作業就能衡量學生理解程度”的舊模式,已經徹底失效了。

      那改成課堂閉卷筆試不就行了?確實,Panos 他們在期中考試時就這么干了,但還有一個更棘手的問題:小組項目。

      以前,Panos 擔心的是“搭便車”,即學生把任務甩給隊友;而現在,更可怕的事情出現了:Gemini 3.0 發布,NotebookLM 能直接生成毫無破綻的演示文稿。

      一瞬間,哪怕一個學生對項目毫無參與,他也能在臺上講得天花亂墜——而老師根本無從分辨。

      基于此,口試成了自然而然的應對方案:

      ● 它要求學生進行實時推理、對全新問題靈活應用知識、并為自己的每一個決策辯護;

      ● 沒有 LLM 在旁“提示”,更沒有“我查一下”的時間讓 ChatGPT 生成答案;

      ● 整個過程,只有你、你的知識儲備,以及考官。

      但唯一的問題是:口試的規?;涞兀喼笔且粓龊笄谪瑝簟?/p>

      以 Panos 的這門課為例,有 36 名學生、2位授課老師,勉強還能應付。但不少學生要求協調考試時間:“我 15 號要趕飛機”、“那天我還有三門期末考”、“我要回家參加家庭活動”……Panos 感慨,這些理由全都合情合理:“但試想一下,如果班級規模擴大十倍,協調考試時間就會變成一場曠日持久的拉鋸戰?!?/p>

      這就是為什么口試一直難以規?;脑颉菗Q個思路,用 AI“走個捷徑”。


      語音 AI 代理,搞定口試規?;?/strong>

      Panos 他們選擇用 ElevenLabs 的對話式 AI 平臺,打造了一個“語音口試智能體”。

      據介紹,這個平臺把 ASR、TTS、打斷處理、輪次控制等臟活全都封裝好了。針對低風險場景(比如日常作業)的基礎版 AI 考官,甚至幾分鐘就能搭建好了——只需要寫一段提示詞,明確 AI 需要向學生提問的方向,整個系統就可以上線運行。

      在 Panos 的方案中,有兩個功能起到了關鍵作用:

      ● 動態變量:將學生姓名、項目細節等個性化信息作為參數傳入對話流程,實現真正的 “個性化口試”。

      ● 工作流設計:用多個子 Agent 構建結構化流程,而不是通用一個“話癆大模型”去亂聊。


      這場 AI 口試長什么樣?

      具體而言,Panos 他們設計的口試分為兩部分:

      (1)環節一:“聊聊你的項目”

      AI 代理將圍繞學生的結課項目展開提問,包括項目目標、數據來源、模型選型依據、評估指標設計、以及項目中遇到的失敗與不足。這正是“用 LLM 代寫作業”的學生的死穴——你可以讓 ChatGPT 幫你寫,但你很難即興編出一套自洽的決策邏輯。

      (2)環節二:“現場分析一個案例”

      AI 代理將從課程講過的案例中隨機抽取一個,圍繞案例涉及的知識點進行提問——本質上是檢驗學生是真的吸收了知識,還是僅僅來課堂“打個卡”。

      為了支撐這套結構化流程,他們把口試工作流拆分成了三個各司其職的子 Agent:

      ● 身份驗證 Agent:要求學生提供學號,只有輸入有效學號才能進入考試環節。

      ● 項目討論 Agent:通過參數注入學生的項目背景,提示詞中包含每個項目的詳細信息,確保 AI 能提出有針對性的問題。

      ● 案例討論 Agent:負責隨機抽取案例并進行結構化提問。

      這種“多個小 Agent 協作”的模式,絕非為了追求技術上的“好看”,它不僅能有效防止對話偏離預設軌道,還能讓系統調試變得清晰可控。


      成本與效果如何?用數字說話

      把這套 AI 口試系統實踐之后,Panos 他們初步統計了一下:

      ● 36 名學生,9 天內完成全部口試

      ● 平均耗時 25 分鐘(最短 9 分鐘,最長 64 分鐘)

      ● 每場對話平均交互 65 輪

      ● 成本:0.42 美元/人,總計 15 美元

      ● 三個 AI 模型評分一致度:89% 在 1 分以內

      ● 最短考試時間 9 分鐘的學生,反而拿了最高分 19 分(滿分 20 分)

      對此,Panos 還仔細算了一筆賬:36 名學生的口試總成本為 15 美元(約人民幣 105 元),具體開銷如下:Claude(主評分模型)8 美元、Gemini 2 美元、OpenAI 0.3 美元、ElevenLabs 語音時長費用約 5 美元——平攤下來,每個學生僅需 0.42 美元(約人民幣 2.9 元)。

      要是換成純人工的話:36 名學生 × 每人 25 分鐘 × 2 名考官 = 30 小時的人工工時。哪怕按助教時薪 25 美元計算,總成本也高達 750 美元,如果按教授時薪計算,成本更是高到 Panos “根本就不會考慮組織口試”的地步。

      可如今僅花費15 美元,Panos 就實現了:實時口試評估、Claude + Gemini + ChatGPT 三模型評審委員會、包含原文引用的結構化反饋、完整的考試審計追蹤。更重要的是,通過這次嘗試,他們還發現了自己教學過程中存在的漏洞。


      踩過的坑,比你想象的多

      不過,對于這套 AI 口試系統的打磨,Panos 他們也并非一步到位,在實踐中踩了不少坑。

      (1)聲音太“嚇人”

      Panos 他們原本選擇了 Foster Provost 的聲音,結果大多學生反饋:像在被罵。

      解決方案:以后 A/B Test 多種聲音,優化“理解體驗”,而不是一味強調“權威感”。

      (2)一次性問四個問題

      Agent 會說:請解釋你的指標選擇,并告訴我你試過哪些基線,為什么沒用 X,以及你下一步打算做什么——顯然,這一下子問了 4 個問題??谠嚤旧砭鸵髮W生實時思考,認知負荷已經很高,疊加多個問題只會讓學生不堪重負。

      解決:在 Prompt 中加入硬性規則,一次只提一個問題,如果需要進行多維度追問,必須拆分成多個對話輪次。

      (3)重復問題時偷偷改寫

      過程中,學生會問:“能重復一下問題嗎?”有時 Agent 會換種問法,結果把原本的題目都變了。

      解決:在 Prompt 中明確指令,當學生要求重復問題時,必須逐字復述,嚴禁改寫,一個字都不能變。

      (4)不給學生思考時間

      學生剛一停頓思考,AI 就立刻插話追問,甚至會把沉默當成“學生沒聽懂”,直接跳過當前問題。解決:在 Prompt 中要求 AI 留出思考時間,避免過度追問。把 AI 觸發“你還在嗎?”的超時等待時間,從 5 秒延長到了 10 秒。

      (5)LLM 根本不懂什么叫隨機

      Panos 原本要求 AI “隨機抽取” 一個案例進行提問,結果 12 月 12-18 日期間,只要案例列表里有“Zillow”(美國房產平臺),AI 選中它的概率就高達 8%。

      解決:把隨機性從 Prompt 層面轉移到代碼層面,即生成一個顯式的隨機數,再將隨機數與案例進行確定性映射。隨機性由代碼來保證,而非依賴 LLM 的選擇。


      評分委員會:三模型互相“掰頭”真的有效

      借鑒 Andrej Karpathy 的思路,Panos 他們采用了“LLM 評分委員會”的模式:

      讓 Claude、Gemini、ChatGPT 三個模型,分別獨立評估每場口試的對話記錄;之后,讓每個模型看到另外兩個模型的評分和理由,并據此修正自己的評分;最后,由 Claude 擔任 “主考官”,綜合所有模型的意見,生成最終評分和詳細依據。

      第一輪的結果簡直慘不忍睹:三個模型的評分完全一致的情況為 0%,僅有 23% 的評分誤差在 2 分以內;在 20 分滿分的體系下,評分的最大平均誤差接近 4 分。

      甚至,不同模型的“打分風格”也不一樣:Gemini 堪稱“心軟的老好人”,平均分高達 17分;而 Claude 的平均分只有 13.4 分——3.6 分的差距,剛好是 B+ 和 B- 的區別。而 Claude 和 OpenAI 的打分尺度在第一輪就已經比較接近:70% 的評分誤差不超過 1 分。


      而當模型們進入 “審議環節”(看到彼此的評分和理由)后,評分一致性發生了質的飛躍:Gemini 在參考了 Claude 和 OpenAI 更嚴格的評分依據后,平均分直接下調了 2 分——因為它無法再為那些“實驗討論存在明顯 bug”的答卷,給出 17 分的高分。


      更有意思的是,模型之間的評分分歧并不是隨機出現的。

      在“問題框架設計”和“評估指標選擇”這兩個維度上,三大模型在 1 分以內的一致率是 100%;但在“實驗設計”上,一致率只有 57%。


      為什么會這樣?原因其實很直觀: 當學生給出的回答清晰、具體、有結構時,不論是人還是 AI,評分都高度一致;當學生的回答開始變得空泛、含糊、全是套話時,評分者就會在“到底該給多少部分分”上產生巨大分歧。所以,“實驗設計”這一項的一致率低,反映的不是模型不靠譜,而是學生的回答本身就存在模糊性。

      除此之外,Panos 坦言這套系統給出的評分,比他平時給學生的要嚴格一些。關于這一點,他認為是好事:“畢竟學生走出校園后,這個世界可不會習慣性給他們打高分。”


      AI反饋質量遠超人類水平

      Panos 還提到,AI 系統會自動生成“優點 / 不足 / 改進行動”三段式反饋,并直接引用學生原話作為證據。

      以最高分學生的反饋為例:

      “你對指標權衡與 Goodhart 定律風險的理解非常出色—— 你用‘熱水浴缸’的例子,完美闡釋了優化單一指標如何導致其他指標失效?!?/blockquote>

      再以一位 B- 學生的反饋為例:

      “請練習完整闡述 A/B 測試方案:明確提出假設、定義隨機化單元、指定監控指標閾值、并建立方案上線或回滾的決策標準?!?/blockquote>

      這些反饋都具體、可落地,還附帶實證支撐。Panos 感慨:“說實話,換成人類評分者,根本不可能為每個學生都做到這一步?!?/p>

      而當 Panos 他們開始按考點拆分學生成績時,一個短板暴露得淋漓盡致——實驗設計。這個考點的平均分僅為 1.94 分(滿分 4 分),對比“問題框架設計”考點的 3.39 分,差距一目了然。

      具體的分數分布更是觸目驚心:

      ● 3 名學生(8%)得 0 分——完全無法就該考點展開論述

      ● 7 名學生(19%)得 1 分——僅具備表層理解

      ● 15 名學生(42%)得 2 分——具備基礎理解

      ● 0 名學生得 4 分——無人達到精通水平

      這些數據讓 Panos 他們意識到了自己的問題:課程中講解 A/B 測試方法論的部分太過倉促。而這場由 AI 主導的口試,把這個教學漏洞赤裸裸地擺在了他們面前,想忽視都不行。

      另一個令他們頗感意外的發現是:口試時長與最終得分完全不相關(相關系數 r = -0.03)。耗時最短的一場口試(9 分鐘),反而拿到了最高分 19 分;而耗時最長的一場(64 分鐘),得分只有 12 分。

      也就是說,時間長并不代表懂得多,而真正的理解,反而是高效的。


      那么,學生怎么說?

      在公布成績前,Panos 他們對學生做了問卷調查,收集他們對AI口試的感受,結果很有意思:

      ● 僅 13% 的學生更喜歡 AI 口試模式,57% 的學生還是傾向于傳統筆試

      ● 83% 的學生認為 AI 口試比筆試更有壓力

      但與此同時:70% 的學生認同,AI 口試能更準確地檢驗他們的真實理解水平——這也是所有調查選項中認可度最高的一項。簡單來說,大多數學生都認可這種評估方式,但對體驗過程并不滿意。


      所以,結論很顯然:核心思路是可行的,只是執行細節還需迭代優化。

      在分享的最后,Panos 提到,課后作業的時代已經落幕,而退回傳統的線下紙筆考試,更像是一種技術上的倒退。當今教師需要的,是一種能獎勵真正的理解能力、決策能力和實時推理能力的評估方式:

      “口試曾經是主流的評估手段,只是受限于規模問題才被淘汰;如今,AI 正在讓口試重新變得規模化、可落地。”

      Panos 補充道,還可以把整套 AI 口試系統直接開放給學生,讓他們反復練習、充分備考。因為與傳統考試“考題泄露即災難”不同,AI 口試的考題是實時生成的——學生練得越多,掌握得就越扎實。

      “而這,才是學習本該有的樣子”,他表示,“以毒攻毒,方為上策?!?/p>

      原文鏈接:https://www.behind-the-enemy-lines.com/2025/12/fighting-fire-with-fire-scalable-oral.html



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      買紅妹:我那“拋妻棄子”的前夫,與潘蔚再婚后,面相都變了!

      買紅妹:我那“拋妻棄子”的前夫,與潘蔚再婚后,面相都變了!

      瓜汁橘長Dr
      2025-12-31 18:03:17
      美軍再扣中國油輪,真是無法無天了

      美軍再扣中國油輪,真是無法無天了

      烽火觀天下
      2026-01-09 12:42:58
      美國生擒馬杜羅,日本罕見沉默,不到24小時,賴清德:臺島價值萬億

      美國生擒馬杜羅,日本罕見沉默,不到24小時,賴清德:臺島價值萬億

      boss外傳
      2026-01-09 12:00:07
      分析CBA4大爭冠熱門球隊的短板,具體如下

      分析CBA4大爭冠熱門球隊的短板,具體如下

      體育哲人
      2026-01-10 13:24:02
      我娶了被全村嫌棄的石女,新婚夜她突然下跪向我道歉:我不應該騙你

      我娶了被全村嫌棄的石女,新婚夜她突然下跪向我道歉:我不應該騙你

      溫情郵局
      2025-10-14 10:55:47
      快攻之王,詹姆斯反擊中晃過對手后還瞪了一下對方再扣籃

      快攻之王,詹姆斯反擊中晃過對手后還瞪了一下對方再扣籃

      懂球帝
      2026-01-10 13:06:54
      她是國家一級演員,享正軍級待遇,離異后至今單身,67歲依然美麗

      她是國家一級演員,享正軍級待遇,離異后至今單身,67歲依然美麗

      老謝談史
      2025-12-16 14:59:41
      又傷了!獨行俠想送都送不走了,能換東契奇?網記:簡直是個笑話

      又傷了!獨行俠想送都送不走了,能換東契奇?網記:簡直是個笑話

      你的籃球頻道
      2026-01-10 08:13:54
      河南一男孩校內離奇身亡,家長堵車:胸口現釘子洞,學校竟欲搶運尸體?新蔡縣教育局:當地公安部門已介入

      河南一男孩校內離奇身亡,家長堵車:胸口現釘子洞,學校竟欲搶運尸體?新蔡縣教育局:當地公安部門已介入

      揚子晚報
      2026-01-09 12:24:37
      DeepSeek V4爆料:春節檔GPT/Claude編程危

      DeepSeek V4爆料:春節檔GPT/Claude編程危

      量子位
      2026-01-10 09:24:55
      玉淵譚天丨中方加嚴管制兩用物項,堅決遏制日本軍國主義圖謀

      玉淵譚天丨中方加嚴管制兩用物項,堅決遏制日本軍國主義圖謀

      上觀新聞
      2026-01-10 07:14:09
      女仆裝:一場關于“服務”的私人儀式

      女仆裝:一場關于“服務”的私人儀式

      疾跑的小蝸牛
      2026-01-09 21:36:19
      裝x成功,愛德華茲:我居然超越科比拿萬分,我該再等100天的

      裝x成功,愛德華茲:我居然超越科比拿萬分,我該再等100天的

      懂球帝
      2026-01-09 22:13:06
      被彈劾!特朗普開始著急了,最壞結果出現,要將中國當成救命稻草

      被彈劾!特朗普開始著急了,最壞結果出現,要將中國當成救命稻草

      朔方瞭望
      2026-01-10 11:56:21
      攤牌了,布朗、奧利弗雙雙離隊,亨特空降遼籃,北京有意換許利民

      攤牌了,布朗、奧利弗雙雙離隊,亨特空降遼籃,北京有意換許利民

      體壇小快靈
      2026-01-10 11:20:56
      1月12號起,3生肖被財神點名!六六大順,橫財接二連三?

      1月12號起,3生肖被財神點名!六六大順,橫財接二連三?

      人閒情事
      2026-01-10 12:22:43
      CBA最新消息!北京首鋼醞釀換帥,布朗確定離開遼寧男籃

      CBA最新消息!北京首鋼醞釀換帥,布朗確定離開遼寧男籃

      體壇瞎白話
      2026-01-10 07:39:42
      上海國盛陳為被雙開,保障房舊改撈巨額,兩月掌30億公司啥玄機

      上海國盛陳為被雙開,保障房舊改撈巨額,兩月掌30億公司啥玄機

      童童聊娛樂啊
      2026-01-10 01:27:17
      倒反天罡!大布逼父母向妻子道歉,貝嫂也不慣著:沒什么好抱歉的

      倒反天罡!大布逼父母向妻子道歉,貝嫂也不慣著:沒什么好抱歉的

      妙知
      2026-01-09 19:28:29
      不差錢!成都蓉城給韋世豪合同總價5年3000萬元:終老成都

      不差錢!成都蓉城給韋世豪合同總價5年3000萬元:終老成都

      邱澤云
      2026-01-09 17:06:52
      2026-01-10 14:04:49
      CSDN incentive-icons
      CSDN
      成就一億技術人
      26249文章數 242213關注度
      往期回顧 全部

      科技要聞

      傳DeepSeek準備第二次震驚全世界

      頭條要聞

      媒體:中國若在其任期統一特朗普不悅 中方回應滴水不漏

      頭條要聞

      媒體:中國若在其任期統一特朗普不悅 中方回應滴水不漏

      體育要聞

      楊瀚森:上場時間要去爭取 而不是要求

      娛樂要聞

      趙櫻子稱和蔣毅試婚三天:像試面膜

      財經要聞

      投資必看!瑞銀李萌給出3大核心配置建議

      汽車要聞

      寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

      態度原創

      旅游
      本地
      手機
      游戲
      公開課

      旅游要聞

      半兩財經|香山公園已報驗收 北京5A級景區有望+1!

      本地新聞

      云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

      手機要聞

      華為Pura 90大招曝光:2億像素、6500mAh、3D面容,配置全線拉滿

      拉瑞安確認《神界》新作不會再用AI生成概念藝術

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 边添小泬边狠狠躁视频| 狠狠做深爱婷婷久久综合一区| 成人性爱视频网站| av东京热一区二区三区| 十八禁在线观看视频播放免费 | 婷婷综合久久| 四虎亚洲无码| 久久婷婷综合色丁香五月| 起碰免费公开97在线视频| 艳妇乳肉豪妇荡乳| 在线观看精品视频网站| 果冻传媒mv免费播放在线观看| 夊夊夊夂夂夂夂夂夂夂亚洲亚洲亚洲亚洲色色色 | 亚洲av国产成人精品区| 91少妇| 无码人妻AⅤ一区二区三区水密桃| 国产亚洲精品aaaa片app| 91视频大全| 亚洲无码资源| 欧美久久久| 97人人模人人爽人人少妇| 国产一区二区不卡在线| 久9视频这里只有精品| 风韵丰满熟妇啪啪区老老熟妇| 国产成人无码A区视频在线观看 | a?v天堂99| 人妻中文第二页| 女人张开让男人桶出水视频免费版| 九九热精品免费视频| 人妻少妇久久久久久97人妻| 日本成熟少妇喷浆视频| 亚洲最大福利视频网| 日本丰满熟妇乱子伦| 国产精品18久久久久久麻辣| 好吊色欧美一区二区三区视频| 平山县| 凸凹人妻人人澡人人添| 97国产在线| 无码 人妻 在线 视频| 苍井空亚洲精品AA片在线播放| 国产手机在线αⅴ片无码观看|