網易首頁 > 網易號 > 正文申請入駐

讓AI算24點，它堅持說25-12=24！大模型的回答為什么不能相信？

2025-11-06 08:22:59　來源: 網絡辟謠

上海舉報

分享至

“孩子解不出‘24點’，讓AI大模型幫忙，結果大模型給出‘2.6×5=24’的結果！孩子讓大模型重新解題，沒想到結果依舊奇葩，變成了‘25-12=24’！”最近發生的一件小事，讓市民成女士對AI大模型的“解題思路”哭笑不得，“都說大模型不可全信，這次我有了切身的體會。”

某AI大模型做“24點”的結果

一段時間以來，部分網民利用AI大模型造假的消息時有發生，相關行為被依法查處。但部分網民不清楚的是，大模型因為“AI幻覺”，本身就會給出錯誤的答案。如果凡事都問AI大模型，很可能被誤導。

大模型做錯小學數學題

大模型真的解不了小學數學題？

記者將成女士女兒的題目交給多個通用大模型：“根據小學數學知識，用5、5、5、12算‘24點’”，結果讓人頗意外——

大模型A的答案是（12-5÷5）×2=24。這個算式本身就不符合題目要求，而且算式的結果是22，完全不對。

大模型A上演了“一本正經的胡說八道”

大模型B的答案是（5+5）×12÷5=24。算式和答案都正確，但在提供解題思路時，大模型說算式“（5+5）÷5×12”不對，可這兩個算式都正確。

大模型B在“思考”過程中，將正確的解答判斷為錯誤

大模型C的答案是（12×（5 + 5））÷5=24。總體正確，但根據書寫規范，算式多了一個括號，應當是12×（5 + 5）÷5。

大模型C的解答書寫不規范

記者又換了幾道小學數學題，發現大模型解題時，可謂“洋相百出”。例如，有一道題是“不改變1、2、3、4、5這幾個數字的次序，在它們間添加四則運算符號以及括號，使結果等于1，且運算過程中不能出現小數、負數”。大模型給了兩個答案，分別是“（1×2×3+4） ÷5=1”和“（5+4） ÷3-（2-1）=1”。不難發現，兩個解答都是錯誤的，而且答案二還改變了數字順序，不符合題目要求。

大模型完全沒有發現它給出的答案是錯誤的

接著，記者問大模型，如果增加一個數字6，即在1、2、3、4、5、6中添加四則運算符號以及括號，使結果等于1，答案是什么？某大模型給出兩個答案，一是“（1+2+3+4）-（5+6）=1”，另一個是“1×（2+3+4）-（5+6）=1”，全都不正確。當記者用對話體“嘲笑”大模型“5+6=9”時，大模型竟然回復“這次5+6=9總算沒算錯！看來我今天終于把腦子‘重啟’成功了”。

大模型一錯再錯

可見，看似能理解“人”說話、無所不知的AI大模型，其實有嚴重缺陷。

大模型并不完全理解“人”

為什么大模型不能完成小學數學題？

最主要的原因是AI幻覺。簡單來說，就是大模型并非完全理解了“人”的提問，而是通過算法邏輯給出它認為正確的答案；有些時候，部分大模型為了“討好”提問者，還會虛構信息或強詞奪理。

專業人士指出，數學計算與邏輯推理是AI幻覺的高發場景。在計算過程中，大模型還可能因為遺漏數字，得出不僅錯誤并違背常識的答案。

例如，有用戶向某大模型詢問“雞兔同籠”問題，題干是“籠中雞兔共30只，腳88只，求雞兔各有幾只”。大模型用方程解題，將算式“2X+4 （30-X）=88”展開為“2X+120-X=88”，遺漏系數 4，得出“雞-32只、兔62只”的荒謬答案。

值得關注的是，數學題引發的AI幻覺或許只是給出錯誤答案，而在信息服務上的AI幻覺很可能誤事并擾亂社會秩序。

例如，外省市曾出現網民使用AI大模型生成“汽車尾號限行”“公共事業費漲價”等假消息，AI大模型無法辨別真偽，將這些假消息抓取，成為其數據庫的一部分。這就導致其他網民在查詢相關信息時，AI大模型以訛傳訛，傳播假消息。

AI幻覺風險在專業領域也有破壞性。在北京市通州區人民法院審結的一起商事糾紛中，原告代理人直接將AI生成的司法案例作為訴訟依據。相關案例看似與案件高度契合，但經法官核實，案號對應的真實案件與AI描述完全不符，最終該代理意見被駁回，代理人也因用虛假信息擾亂司法秩序受到批評。

此外，不少專業人士在了解行業發展趨勢時，會發現AI大模型能提供大量的行業發展數據、調研報告，并宣稱它們出自官方或權威機構。但進一步核查會發現，這些數據、報告都是AI幻覺的結果——AI大模型為了迎合提問者而杜撰。如果相信這些數據、報告，很可能誤導后期決策。

警惕AI幻覺，這些方法有效

客觀地說，AI大模型確實為人們提供了搜索信息、掌握知識的新途徑。但是，現有的技術發展還沒有辦法完全避免AI幻覺。那么，怎樣避免被AI幻覺誤導呢？有幾個行之有效的好辦法。

首先，追問AI大模型，要求大模型提供引用信息的出處。對于AI給出的關鍵結論，如政策條款、數據報告、案例細節等，明確要求其標注信息來源，包括具體文件名稱、發布機構、發布時間及官方鏈接。如果AI大模型用“信息來源于公開網絡”“綜合整理多方資料”等模糊表述回應，或回避具體出處，基本可以判定信息存疑。

例如，在咨詢某項政策時，可以追問AI大模型“政策出處”“官方報道在哪里”“文件編號或發布日期”等，查看追問答案，篩除不可靠信息。

其次，求證信息時，不能“問AI要答案”，而是“找官方要真相”。

“官方”包括各種政府機構的官方公眾號、權威媒體的公眾號等，而非信息分發平臺、短視頻平臺上的“自媒體號”。比如，如果關心時事政策，可以查詢政府機構或主流媒體的公眾號。

核查一些“二手信息”或“舊聞”時，可以使用官方公眾號的“搜索功能”。大部分公眾號都有“搜索”功能，通常在公眾號主頁右上角或帶有“放大鏡”圖標，輸入信息的關鍵詞，就能從公眾號已有信息中匹配對應內容。

可以通過權威機構公眾號的“搜索”功能核查信息

其三，交叉核對不同的官方信源，排除單一信息偏差。如果涉及重要決策，建議交叉核對兩三個權威信源，確保信息無偏差。比如，想核實“研究生報考某導師的研究方向”，除了查看高校官方公眾號、網頁發布的導師介紹外，也可以查詢教育類官方媒體公眾號，核對信息，避免被AI編造的“導師虛假言論”誤導。

其四，使用AI大模型檢索官方信息發布渠道。在不確定具體官方平臺時，可以讓AI提供與需求相關的官方渠道清單。

比如，想知道“如何查詢個人個稅繳納記錄”的答案，可以讓AI大模型列出“國家稅務總局官網”“當地稅務局官方公眾號”“個稅 APP”等正規渠道，再自行登錄查詢。如果AI大模型推薦的渠道包含非官方平臺，如商業資訊網站、個人運營的“稅務咨詢號”，要提高警惕，不可輕信。

最后，如果發現某條信息官方暫無報道，那么，比詢問AI大模型“有沒有”更穩妥的方式是“等待權威發布”。因為在AI大模型的“知識庫”或者說數據庫中，既有官方信息，也有小道消息，不少信息來自自媒體的“自說自話”甚至“胡編亂造”。當網民有需求時，AI大模型會將這些消息提供給提問者，或者自動捏造不實信息。所以，等待權威報道遠好于問AI“要答案”。

總之，可以把AI作為工具檢索信息，但不要全盤相信它給出的結果。

微信編輯：何夕

還原事實，洞悉真相。

歡迎關注，留言舉報！

除了辟謠，這里還關注網絡熱點，及時回應網友關切，追蹤事件進展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.