“孩子解不出‘24點’,讓AI大模型幫忙,結果大模型給出‘2.6×5=24’的結果!孩子讓大模型重新解題,沒想到結果依舊奇葩,變成了‘25-12=24’!”最近發生的一件小事,讓市民成女士對AI大模型的“解題思路”哭笑不得,“都說大模型不可全信,這次我有了切身的體會。”
![]()
![]()
某AI大模型做“24點”的結果
一段時間以來,部分網民利用AI大模型造假的消息時有發生,相關行為被依法查處。但部分網民不清楚的是,大模型因為“AI幻覺”,本身就會給出錯誤的答案。如果凡事都問AI大模型,很可能被誤導。
大模型做錯小學數學題
大模型真的解不了小學數學題?
記者將成女士女兒的題目交給多個通用大模型:“根據小學數學知識,用5、5、5、12算‘24點’”,結果讓人頗意外——
大模型A的答案是(12-5÷5)×2=24。這個算式本身就不符合題目要求,而且算式的結果是22,完全不對。
![]()
大模型A上演了“一本正經的胡說八道”
大模型B的答案是(5+5)×12÷5=24。算式和答案都正確,但在提供解題思路時,大模型說算式“(5+5)÷5×12”不對,可這兩個算式都正確。
![]()
大模型B在“思考”過程中,將正確的解答判斷為錯誤
大模型C的答案是(12×(5 + 5))÷5=24。總體正確,但根據書寫規范,算式多了一個括號,應當是12×(5 + 5)÷5。
![]()
大模型C的解答書寫不規范
記者又換了幾道小學數學題,發現大模型解題時,可謂“洋相百出”。例如,有一道題是“不改變1、2、3、4、5這幾個數字的次序,在它們間添加四則運算符號以及括號,使結果等于1,且運算過程中不能出現小數、負數”。大模型給了兩個答案,分別是“(1×2×3+4) ÷5=1”和“(5+4) ÷3-(2-1)=1”。不難發現,兩個解答都是錯誤的,而且答案二還改變了數字順序,不符合題目要求。
![]()
大模型完全沒有發現它給出的答案是錯誤的
接著,記者問大模型,如果增加一個數字6,即在1、2、3、4、5、6中添加四則運算符號以及括號,使結果等于1,答案是什么?某大模型給出兩個答案,一是“(1+2+3+4)-(5+6)=1”,另一個是“1×(2+3+4)-(5+6)=1”,全都不正確。當記者用對話體“嘲笑”大模型“5+6=9”時,大模型竟然回復“這次5+6=9總算沒算錯!看來我今天終于把腦子‘重啟’成功了”。
![]()
大模型一錯再錯
可見,看似能理解“人”說話、無所不知的AI大模型,其實有嚴重缺陷。
大模型并不完全理解“人”
為什么大模型不能完成小學數學題?
最主要的原因是AI幻覺。簡單來說,就是大模型并非完全理解了“人”的提問,而是通過算法邏輯給出它認為正確的答案;有些時候,部分大模型為了“討好”提問者,還會虛構信息或強詞奪理。
專業人士指出,數學計算與邏輯推理是AI幻覺的高發場景。在計算過程中,大模型還可能因為遺漏數字,得出不僅錯誤并違背常識的答案。
例如,有用戶向某大模型詢問“雞兔同籠”問題,題干是“籠中雞兔共30只,腳88只,求雞兔各有幾只”。大模型用方程解題,將算式“2X+4 (30-X)=88”展開為“2X+120-X=88”,遺漏系數 4,得出“雞-32只、兔62只”的荒謬答案。
值得關注的是,數學題引發的AI幻覺或許只是給出錯誤答案,而在信息服務上的AI幻覺很可能誤事并擾亂社會秩序。
例如,外省市曾出現網民使用AI大模型生成“汽車尾號限行”“公共事業費漲價”等假消息,AI大模型無法辨別真偽,將這些假消息抓取,成為其數據庫的一部分。這就導致其他網民在查詢相關信息時,AI大模型以訛傳訛,傳播假消息。
AI幻覺風險在專業領域也有破壞性。在北京市通州區人民法院審結的一起商事糾紛中,原告代理人直接將AI生成的司法案例作為訴訟依據。相關案例看似與案件高度契合,但經法官核實,案號對應的真實案件與AI描述完全不符,最終該代理意見被駁回,代理人也因用虛假信息擾亂司法秩序受到批評。
此外,不少專業人士在了解行業發展趨勢時,會發現AI大模型能提供大量的行業發展數據、調研報告,并宣稱它們出自官方或權威機構。但進一步核查會發現,這些數據、報告都是AI幻覺的結果——AI大模型為了迎合提問者而杜撰。如果相信這些數據、報告,很可能誤導后期決策。
警惕AI幻覺,這些方法有效
客觀地說,AI大模型確實為人們提供了搜索信息、掌握知識的新途徑。但是,現有的技術發展還沒有辦法完全避免AI幻覺。那么,怎樣避免被AI幻覺誤導呢?有幾個行之有效的好辦法。
首先,追問AI大模型,要求大模型提供引用信息的出處。對于AI給出的關鍵結論,如政策條款、數據報告、案例細節等,明確要求其標注信息來源,包括具體文件名稱、發布機構、發布時間及官方鏈接。如果AI大模型用“信息來源于公開網絡”“綜合整理多方資料”等模糊表述回應,或回避具體出處,基本可以判定信息存疑。
例如,在咨詢某項政策時,可以追問AI大模型“政策出處”“官方報道在哪里”“文件編號或發布日期”等,查看追問答案,篩除不可靠信息。
其次,求證信息時,不能“問AI要答案”,而是“找官方要真相”。
“官方”包括各種政府機構的官方公眾號、權威媒體的公眾號等,而非信息分發平臺、短視頻平臺上的“自媒體號”。比如,如果關心時事政策,可以查詢政府機構或主流媒體的公眾號。
核查一些“二手信息”或“舊聞”時,可以使用官方公眾號的“搜索功能”。大部分公眾號都有“搜索”功能,通常在公眾號主頁右上角或帶有“放大鏡”圖標,輸入信息的關鍵詞,就能從公眾號已有信息中匹配對應內容。
![]()
可以通過權威機構公眾號的“搜索”功能核查信息
其三,交叉核對不同的官方信源,排除單一信息偏差。如果涉及重要決策,建議交叉核對兩三個權威信源,確保信息無偏差。比如,想核實“研究生報考某導師的研究方向”,除了查看高校官方公眾號、網頁發布的導師介紹外,也可以查詢教育類官方媒體公眾號,核對信息,避免被AI編造的“導師虛假言論”誤導。
其四,使用AI大模型檢索官方信息發布渠道。在不確定具體官方平臺時,可以讓AI提供與需求相關的官方渠道清單。
比如,想知道“如何查詢個人個稅繳納記錄”的答案,可以讓AI大模型列出“國家稅務總局官網”“當地稅務局官方公眾號”“個稅 APP”等正規渠道,再自行登錄查詢。如果AI大模型推薦的渠道包含非官方平臺,如商業資訊網站、個人運營的“稅務咨詢號”,要提高警惕,不可輕信。
最后,如果發現某條信息官方暫無報道,那么,比詢問AI大模型“有沒有”更穩妥的方式是“等待權威發布”。因為在AI大模型的“知識庫”或者說數據庫中,既有官方信息,也有小道消息,不少信息來自自媒體的“自說自話”甚至“胡編亂造”。當網民有需求時,AI大模型會將這些消息提供給提問者,或者自動捏造不實信息。所以,等待權威報道遠好于問AI“要答案”。
總之,可以把AI作為工具檢索信息,但不要全盤相信它給出的結果。
微信編輯:何夕
還原事實,洞悉真相。
歡迎關注,留言舉報!
除了辟謠,這里還關注網絡熱點,及時回應網友關切,追蹤事件進展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.