<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
超參調優是“模型調優”(Model Tuning)階段最主要的工作,是直接影響模型最終效果的關鍵步驟,然而,超參調優本身卻是一項非常低階且枯燥的工作,因為它的策略就是:不斷變換引數值,一輪一輪地去“試”,直到找出結果最好的一組引數。顯然,這個過程是可以通過程式設計封裝成自動化的工作,而不是靠蠻力手動去一遍一遍的測試。為此,Sklearn提供了多種(自動化)超參調優方法(官方檔案),其中網格搜尋(Grid Search)和隨機搜尋(Randomized Search)是最基礎也是最常用的兩個:
方法名稱 | 對應類/函數 | 官方檔案 |
---|---|---|
網格搜尋(Grid Search) | sklearn.model_selection.GridSearchCV | 檔案連結 |
隨機搜尋(Randomized Search) | sklearn.model_selection.RandomizedSearchCV | 檔案連結 |
對應類/函數的字尾CV是Cross-Validation的意思,因為它們每嘗試一種超參組合時,都會使用Cross-Validation進行效果評估,所以呼叫它們時也都需要顯式指定cv引數,即:驗證的輪次(K-Fold的份數)。
網格搜尋(Grid Search)的邏輯其實非常簡單,就是由開發者針對每個超參設定多個值去嘗試,找出效果最好的那個,由於超參會有很多個,而每一個超參又有多個嘗試值,所以就變成了一個“排列組合”問題。例如我們想針對兩個超參進行調優,第一個超參設定了2個嘗試值,第二個超參設定了3個嘗試值,則超參設定總共會有 2 × 3 = 6 種組合,理論上模型要被訓練6次,如果再加上交叉驗證的輪次引數cv,假設cv=3,則總得的訓練次數將變為:6 × 3 = 18 次。以下是《Hands-On ML, 2nd Edition》一書中提供的GridSearchCV範例程式碼:
from sklearn.model_selection import GridSearchCV param_grid = [ {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}, {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}, ] forest_reg = RandomForestRegressor() grid_search = GridSearchCV(forest_reg, param_grid, cv=5, scoring='neg_mean_squared_error', return_train_score=True) grid_search.fit(housing_prepared, housing_labels)
在這份範例程式碼中,作者提供針對bootstrap、n_estimators和max_features三個超參,給出了兩套引數設定:
第一套:{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}
總計:3 × 4 = 12 種組合
第二套:{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}
總計:1 × 2 × 3 = 6 種組合
合在一起一共:12 + 6 = 18 種組合,加上交叉驗證設定cv=5,所以最終將訓練 18 × 5 = 90 次!這裡我們可以看到param_grid是一個list,裡面每一個元素是一個dict,一個dict就代表了一套引數設定,每套引數設定根據賦值情況又會產生多種引數組合。其實上面兩套組合也可以用下面的一套設定覆蓋:
param_grid = [ {'bootstrap': [True, False], 'n_estimators': [3, 10, 30], 'max_features': [2, 3, 4, 6, 8]} ]
但在此情況下,總的訓練次數將會變為:(2 × 3 × 5) × 5 = 150 次。由此可見,Sklearn這種允許設定多套引數的設計(即一個list下可設定多個dict)還是有可取之處,會方便開發人員更具經驗設定最有希望的取值集合,減少訓練次數。
網格搜尋適用於引數組合數比較少的情況,當引數組合大到一定程度後,模型訓練所佔用的資源和持續時間將會超使用者的可接受範圍,此時往往就要改用隨機搜尋(Randomized Search)了。隨機搜尋的工作原理和網格搜尋其實差不多,都是“暴力嘗試”,不同之處在於:網格搜尋的引數取值集合是使用者設定的,而隨機搜尋的引數取值則是指定好區間(最大值和最小值)由亂數發生器隨機生成的,而想要生成多少種組合是可以設定的。以下是《Hands-On ML, 2nd Edition》一書中提供的RandomizedSearchCV範例程式碼:
from sklearn.model_selection import RandomizedSearchCV from scipy.stats import randint param_distribs = { 'n_estimators': randint(low=1, high=200), 'max_features': randint(low=1, high=8), } forest_reg = RandomForestRegressor(random_state=42) rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs, n_iter=10, cv=5, scoring='neg_mean_squared_error', random_state=42) rnd_search.fit(housing_prepared, housing_labels)
在這份程式碼中,作者針對n_estimators和max_features兩個超參分別設定了 1 ~ 200 和 1 ~ 8 的取值區間,然後通過設定引數n_iter=10
將引數組合數設定為10,當然,疊加上交叉驗證cv=5
後,實際的訓練就是 5 × 10 = 50 次了。
到此這篇關於Sklearn調優之網格搜尋與隨機搜尋原理詳細分析的文章就介紹到這了,更多相關Sklearn網格搜尋與隨機搜尋內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45