網(wǎng)格搜索、管道、決策樹、支持向量機(jī)、Hyperparameter調(diào)優(yōu)、混淆矩陣、ROC曲線,如果你三個(gè)月前向我提起這些術(shù)語,我絕對不知道你在說什么。
然而我剛剛完成了一個(gè)項(xiàng)目,使用了所有這些技術(shù)、方法和工具。我的大腦已經(jīng)接受了每天都會(huì)被新概念淹沒的事實(shí),并期待著能夠立即將它們投入使用。
Flatiron School數(shù)據(jù)科學(xué)項(xiàng)目的第三個(gè)主要項(xiàng)目是一個(gè)專門關(guān)注分類的監(jiān)督機(jī)器學(xué)習(xí)項(xiàng)目。與之前的其他項(xiàng)目不同,我們被要求構(gòu)建預(yù)測離散目標(biāo)變量的模型,而不是連續(xù)或數(shù)值目標(biāo)變量。
與預(yù)測票房、電影價(jià)值或房屋銷售價(jià)格不同,我們可以在幾個(gè)不同的分類數(shù)據(jù)集中選擇,也可以選擇我們自己的一個(gè)。在搜索存儲庫和數(shù)據(jù)收集數(shù)天之后,我最終確定了一個(gè)符合我興趣的,并提出了一個(gè)需要解決的現(xiàn)實(shí)問題。
當(dāng)我聽同伴們討論話題時(shí),我意識到我錯(cuò)過了一個(gè)難得的機(jī)會(huì),為這個(gè)項(xiàng)目選擇一些積極向上、引人入勝的東西來進(jìn)行調(diào)查。
我聽到學(xué)生們談?wù)撍麄兒芟胱龀龅呐c體育相關(guān)的不同預(yù)測,還有人計(jì)劃使用算法來預(yù)測電子游戲中的音樂類型或評分。非常多有趣的想法!輪到我介紹我的主題時(shí),我深深地嘆了口氣,笨拙地解釋說,我選擇了一個(gè)有關(guān)胎兒健康結(jié)果和死亡率的數(shù)據(jù)集。是的。不知何故,無憂無慮的我挑了一個(gè)最嚴(yán)肅、最令人沮喪的話題。
然而,我的項(xiàng)目本身和數(shù)據(jù)的目標(biāo)實(shí)際上是相當(dāng)有希望和樂觀的。這一切的前提是美國持續(xù)存在的公共健康問題即胎兒死亡率。這是我非常關(guān)心的一個(gè)話題,這促使我花了幾個(gè)小時(shí)尋找用于這個(gè)目的的正確數(shù)據(jù)。
我發(fā)現(xiàn)這個(gè)數(shù)據(jù)集包含超過2000行患者的心電圖(CTG)記錄,包含諸如胎兒心率、子宮收縮、胎兒運(yùn)動(dòng)等特征。然后,每一份記錄都由“專業(yè)產(chǎn)科醫(yī)生”分類為正常、可疑或病理胎兒健康結(jié)果。
我將其調(diào)整為一個(gè)二元分類問題,將可疑結(jié)果和病理結(jié)果合并到一個(gè)類別中,并將其標(biāo)記為“危險(xiǎn)”。我打算證明,僅憑CTG檢查的指標(biāo)就可以預(yù)測胎兒健康結(jié)果,這意味著這種預(yù)測可以自動(dòng)化,而醫(yī)療服務(wù)提供商只需通過閱讀報(bào)告,就可以采取更積極的挽救生命措施。
我在著手這個(gè)項(xiàng)目時(shí)首先意識到的一件事是,管道基本上是一種神奇的東西,它簡化了將分類器與數(shù)據(jù)匹配的過程。
管道承擔(dān)了擴(kuò)展、預(yù)處理和設(shè)置分類器的所有步驟,并將它們組合到單個(gè)對象中,從而干凈地完成流程并消除一些人為錯(cuò)誤。
因?yàn)橛泻芏嗖煌乃惴ㄎ蚁胩剿?所以我寫了一個(gè)函數(shù)。這個(gè)函數(shù)輸入一個(gè)分類器并且返回一個(gè)管道對象。(請注意,我class_weight參數(shù)設(shè)置為‘balanced’,因?yàn)槲业哪繕?biāo)變量不平衡;在我的數(shù)據(jù)中,健康狀況正常的嬰兒比危險(xiǎn)嬰兒要多得多。)
現(xiàn)在,可以說比管道搜索更令人驚奇的是網(wǎng)格搜索的能力。
GridSearchCV允許你為一個(gè)模型檢查許多不同的超參數(shù),并通過選擇最佳參數(shù)為所選的度量優(yōu)化你的模型。
在這種情況下,我優(yōu)先考慮的指標(biāo)是召回率。通過對召回率進(jìn)行優(yōu)化,我最小化了模型預(yù)測中錯(cuò)誤否定或第二類錯(cuò)誤的數(shù)量。
雖然我對模型有時(shí)錯(cuò)誤地預(yù)測嬰兒處于危險(xiǎn)中沒有意見,但我對模型有時(shí)錯(cuò)誤地預(yù)測嬰兒是健康的就不那么滿意了。召回率指標(biāo)是這個(gè)項(xiàng)目最重要的指標(biāo),遠(yuǎn)遠(yuǎn)超過精度、準(zhǔn)確性或其他任何評估指標(biāo)。
為此我編寫了一個(gè)函數(shù),它接受一個(gè)管道對象(例如,來自上面的函數(shù))和一組要調(diào)優(yōu)的超參數(shù),并返回一個(gè)網(wǎng)格搜索對象。如果你要優(yōu)化的不是召回率,比如準(zhǔn)確性,那么你只需要更改評分參數(shù)來反映這一點(diǎn)。
最后,我編寫了一個(gè)函數(shù)來接收網(wǎng)格搜索對象(如上面的函數(shù)所創(chuàng)建的對象)并返回用于評估的相關(guān)信息。這才是真正神奇的地方。最后一個(gè)函數(shù)接受上面的網(wǎng)格搜索對象,并對模型進(jìn)行優(yōu)化,結(jié)果:
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.