本文圍繞“DNA的探索”的跨學科教學活動項目,從科學研究的范式的角度,探討人工智能模型在科學教育中支持跨學科融合教學活動的路徑。
在概述了人工智能在科學探究中的多種賦能方式后,作者重點分析了不同的科學研究范式特別是數據密集驅動的第四范式和智能驅動的第五范式對設計人工智能模型參與的跨學科科學探究活動的影響,接著通過“DNA啟動子預測”這一具體案例,比較了基于人為設定的字符串規則分析、傳統機器學習與人工神經網絡這三種方法在預測效果和可解釋性上的區別,揭示了不同范式在教學設計中的實施方式,并進一步提出兩種跨學科活動設計路徑:一是從“數據密集驅動”向“智能驅動”演進,強調技術對學科研究的賦能;二是從“智能驅動”向“數據密集驅動”回溯,注重通過智能發現反向推動學科理解。
具有學科融合特色的教學活動對于科學教育而言,有著重要的意義,它打破了單一學科的“圍墻”,將零散知識點和技能構建成認知網絡,培養學生綜合多學科的知識和技能解決復雜問題的能力。人工智能支持下的跨學科融合活動為科學教育提供了更豐富的素材和更多維的視角,本文將圍繞“DNA的探索”這一主題,先概要性地列舉一下人工智能在科學探究過程中可能起到的作用,然后,需要重點討論的是,科學研究的新的范式,也就數據密集驅動的科學研究范式,以及自主智能猜想與發現的驅動,也可以簡稱為智能驅動的科學研究范式,對建設人工智能支持下的具有學科融合特色的實驗教學環境和內容的啟發。
人工智能賦能跨學科活動方式的簡單列舉
人工智能能夠從不同角度賦能科學探究活動,如一種大家已經很熟悉的方式,即借助生成式人工智能,通過提示詞,或預先創設的智能體,由樸素的“對話”過程,幫助學生開展科學探究活動,或者借助生成式人工智能,實現教學資源的搜集、整理和建設工作,或者利用生成式人工智能,幫助學生在學習過程中,對所學知識和技能實施驗證,實現“嘗試—反饋—迭代”的閉環過程,或者直接利用生成式人工智能對規模較小的數據進行較為簡單的數據分析等等。
有許多科學探究活動本身具有跨學科的特性,如“DNA的結構”是高中生物學中涉及的內容:從生物學角度,它涉及堿基配對與遺傳信息傳遞;從化學角度,DNA結構以脫氧核苷酸為基本單位,通過磷酸二酯鍵形成線性單鏈,再經堿基互補配對等作用構建雙螺旋,化學作用貫穿DNA結構、功能及動態變化過程;從物理學角度,DNA結構穩定性和力學相關,且物理學手段為理解DNA結構提供了重要支持。
另外,在數學中,堿基排列組合蘊含特定數學規律,為研究DNA序列提供了數學的分析方法,DNA序列比對、功能預測等算法的設計涉及計算機科學的內容,倫理學與社會科學也常圍繞基因技術展開討論,如基因編輯等倫理問題、DNA數據的隱私與數據安全等。以上這些都凸顯其具有學科融合特性的知識關聯性。生成式人工智能在跨學科知識整合與呈現、復雜概念可視化模擬、個性化學習路徑規劃、數據分析與解讀等方面,都能給予學生非常強大的支持。
除去生成式人工智能,各類人工智能模型可能以多種形式賦能跨學科活動。例如,可以上傳不同物種的DNA序列片段,人工智能模型通過比對算法快速找出堿基排列的差異,其中的一個例子是,學生輸入氨基酸序列,由人工神經網絡模型進行推理,用AlphaFold生成3D模型,并預測蛋白質結構;又如,對于某些研究對象,可能需要自行搭建和訓練神經網絡模型,使之可以進行特定功能的預測或分類,而對于信息科技教師,可能除了希望學生們親自體驗搭建基于人工智能的數據分析工具的過程,還希望其能了解模型運作底層的算法原理。
傳統的基于規則的專家系統也仍然可能在支持跨學科活動中發揮作用。一方面,結構化、邏輯化的專家系統在跨學科活動中,能夠彌補學生在專業知識方面的缺陷;另一方面,某個領域的可簡單實現的專家系統(尤其在生成式人工智能的支持下),也可以是學生跨學科活動中的較后階段的任務目標,或可作為學習評價的對象。
人工智能支持下的虛擬仿真與交互式環境為跨學科活動構建了一個動態的實踐體驗環境。它們通過創建可計算的模擬世界,將不同學科的知識與規則融入其中,迫使參與者打破領域壁壘進行協同思考。例如,在某個探索DNA計算的虛擬實驗中,可以模擬核酸酶對DNA鏈的切割以及堿基的替換與連接過程,從生物學視角,參與者能直觀看到DNA鏈在變化前和變化后的狀態,而從信息科技的角度,參與者能嘗試用某種特定的變化來實現某個特定的邏輯運算的功能。通過即時、可視化的多變量交互反饋,將抽象的理論關聯轉化為具象的系統行為,使參與者能直觀理解復雜系統中“牽一發而動全身”的跨學科耦合機制,從而催生出更具系統性和創新性的綜合解決方案。
以上只是對人工智能參與跨學科教學活動的方式進行簡單的列舉,而非系統性梳理(這部分研究工作還有待開展),有一些通用性的人工智能支持方式也不再列舉(如自適應學習輔助系統),否則難免掛一漏萬。在這里是想說明,人工智能可能以各種各樣的形式,參與到具有跨學科特征的學習活動中,而本文重點則是要討論科學研究的新的范式對教師設計跨學科學習活動的啟發。
從科研新范式看DNA啟動子預測
科學研究范式(托馬斯·庫恩在《科學革命的結構》中提出此名詞),簡單來說,就是科學家們在進行研究時所遵循的一套模式和方法,它對科學的發展起著至關重要的引導作用。隨著時代的發展,科研范式也在不斷演變,從最早的第一范式,逐步發展到如今備受矚目的第五范式。
第一范式是實驗科學范式,它基于實驗或經驗的歸納總結來發現規律。第二范式是理論科學范式,它以理論為基礎開展研究,科學家們通過建立數學模型和理論框架進行演算、歸納、總結,以此來解釋自然現象。第三范式是計算機科學范式,科學家們利用計算機仿真模擬復雜自然現象。
與人工智能密切相關的科研范式是第四范式和第五范式,即數據密集驅動的范式和智能驅動的科研范式。第四范式指的是人類主導數據分析過程。科學家通過實驗、觀測或模擬產生海量數據,在構建結構化數據集后,運用數據挖掘技術進行分析得到規律。例如,陣列射電望遠鏡、大型粒子對撞機每天產生幾個千萬億字節的數據,需要利用統計分析算法從海量數據中發現用過去的科學方法發現不了的新模式、新知識以及新規律。
第五范式指的是人工智能深度參與并部分主導科研流程的智能化模式。它不再局限于被動分析數據,而是主動參與科學發現:人工智能能自主設計實驗方案、優化數據采集策略,甚至提出創新性假設。與第四范式相比,第五范式中的人工智能具備一定的“科研自主性”,能突破人類思維局限發現跨領域規律,實現從“數據總結”到“智能創造”的跨越。這種范式的核心是構建“人類—人工智能協同科研生態”,通過“機器猜想”的方式應用于科學智能,或許能將未知的結論推導出來,從而反向推動該領域的發展,得到在經驗領域具有的前瞻性的結果。人工智能成為科研伙伴而非單純工具,推動科研效率和創新維度的質變。
現在,圍繞“預測DNA啟動子”的問題,來看新的科研范式如何支持跨學科的探究活動。DNA啟動子是基因的一段特殊“指揮區”,它能夠被RNA聚合酶特異性地識別和結合,起到啟動轉錄過程的開關作用,判斷基因序列中的啟動子在醫學研究和生物技術中有很重要的作用。但是,我們面臨一個判斷基因序列是不是啟動子的問題。假設現在已經有一個數據文件,其中有若干條基因序列,并標明是不是啟動子。另外,還有若干條基因序列,并不知道是不是啟動子,我們能用怎樣的方法,基于已有是不是啟動子標簽的數據,判別其他基因序列中,哪些更可能是啟動子,哪些不是呢?
如果試著給生成式人工智能工具以下提示詞:請根據以下大類,列舉出常用的預測方法。第一大類是,已知啟動子常見特征,人工設定特征字符串,然后按這些特征對不同序列打分,進行評估和預測;第二大類是,查詢已知的啟動子常見特征,利用訓練數據,根據常見特征,用機器學習算法訓練出模型,然后利用訓練好的模型,評估和預測測試數據;第三大類是,完全不知道任何已知啟動子特征,利用訓練數據,希望訓練模型,自行發現特征或規則,用得到的模型對測試數據進行預測。
生成式人工智能針對三類不同情況給出了很詳細的方案,來看一下給出的方案。
第一大類:可以根據關鍵基因序列、GC含量、堿基分布偏好等特征編寫評分程序,或綜合多個特征編寫評分程序;
第二大類:可以采用邏輯回歸、決策樹、隨機森林、支持向量機等訓練模型和預測;
第三大類:可以訓練和建立人工神經網絡模型,或結合了深度學習的隱馬爾可夫模型等進行預測。
第一大類的方法,是用常規的方法分析數據,完全由人主導數據分析過程,并沒有體現出數據密集驅動和智能模型驅動的特點,這種方式在許多時候仍然是有效的,但無疑需要專業人士經驗的支撐。
第二大類的方法,提供給計算機關鍵基因序列、GC含量等已知的規則框架,然后利用大量已標注好標簽的數據,讓計算機去發現某種規律。需要指出的是,雖然規律是計算機自行發現的,但規則的輸入和輸出關系是由人定義的,并且,一般來說,這些規律是人可以理解的,對應著科學研究第四范式的特征,即“數據密集驅動”的特征。
第三大類的方法,人事先并不知道規律本身是什么,計算機體現出規律發現的自主性,并且,就算是規律的模型被人工智能建立起來,人在短時間內也無法直接理解規律,這就體現了科學研究第五范式,即“智能驅動”的特征。
我們可以試著讓生成式人工智能,生成屬于以上三大類方式中不同的程序代碼,對DNA序列是不是啟動子進行預測,并觀察其運行效果。例如,分別按字符串特征直接評估打分、采用生成決策樹的機器學習訓練模型、采用人工神經網絡訓練模型這三種方式來生成代碼,然后采用這些代碼分析如下圖所示格式的已有的DNA啟動子數據集,并觀察預測效果。
![]()
DNA啟動子數據集局部
用三種不同的代碼(均由生成式人工智能生成)對已有的DNA啟動子數據集中的DNA序列進行預測,其準確率情況如下表所示(存在一定隨機性,僅供參考)。
![]()
決策樹的結構是可以理解的,所以可以采用訓練生成的決策樹的成果,對上述表格中的“字符串特征分析”方法進行改進,提升其準確率。人工神經網絡的測試準確率雖然相當高,但由于其模型具有不可解釋性,其訓練得到的成果很難運用在“字符串特征分析”的方法上。
人工智能模型參與過程中的兩種不同的跨學科活動設計路徑
在人工智能模型參與過程中,存在兩種不同的跨學科活動設計路徑,分別是:“數據密集驅動→智能驅動”演進的路徑、“智能驅動→數據密集驅動”演進的路徑。
在“數據密集驅動→智能驅動”演進的路徑中,以學科領域知識為基石,通過傳統方法(如實驗、理論推導)建立對規律的初步認知,再引入人工智能技術優化或拓展規律發現能力。例如,在DNA啟動子預測中,先通過生物學實驗驗證啟動子功能,再利用機器學習模型(如支持向量機、隨機森林)分析序列特征、對數據進行訓練并給出預測模型,然后,嘗試用神經網絡自主挖掘更復雜的模式。其技術演進思路是:從“人工設計特征+傳統模型”到“深度學習”,體現技術迭代對學科研究的賦能。
在“智能驅動→數據密集驅動”演進的路徑中,邏輯起點是以人工智能的自主發現能力為突破口,通過智能模型揭示潛在規律,再反向追溯學科領域知識進行驗證與解釋,深化對學科本質的理解。例如,在DNA啟動子預測中,先用神經網絡直接預測啟動子,我們首先會發現,的確可以借助模型來實現預測,然后嘗試發現模型對某些序列區域(如GC富集區)的敏感性,再通過生物學實驗驗證這些區域是否為轉錄因子結合位點,最終歸納出啟動子的關鍵特征(如核心啟動子元件、增強子模塊)。認知深化:從“黑箱預測”到“可解釋性分析”,強調智能模型作為科學探究工具的價值。
“數據密集驅動→智能驅動”路徑指向“技術支持科學”的現代研究范式,“智能驅動→數據密集驅動”路徑指向體現“科學指導技術”的學科本質。教學中可根據學生認知水平、課程目標及資源條件靈活選擇,或通過混合設計實現“技術體驗”與“學科深化”的雙重目標。
在人工智能在科學教育中的滲透中,第四范式“密集數據驅動”與第五范式“自主智能假設”可以是同一場景下并行的線程:學生既用已知規律訓練模型以及跨學科的探究活動,嘗試對問題進行解釋,也可以借人工智能給出的“黑箱”式判定進行反向追問,從機器輸出的不可解釋特征出發,深入探索學科專業知識。在此過程中,探究選題如何兼顧“可解釋”與“可生成”、活動組織怎樣平衡人類預設與人工智能自主、在人工智能充分參與的情況下學生的探究活動和實驗質量應當如何評價,這些都成為需要進一步認真研究的問題。
本文作者:
陳凱
上海市位育中學
文章刊登于《中國信息技術教育》
2025年第23期
原文標題:從科學研究的新范式看人工智能對跨學科活動的多樣化支持方式——以DNA啟動子的預測為例
引用請注明參考文獻:
陳凱.從科學研究的新范式看人工智能對跨學科活動的多樣化支持方式——以DNA啟動子的預測為例[J].中國信息技術教育,2025(23):23-26.
![]()
歡迎訂閱
識別上方二維碼即可訂閱
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.