<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
之前在訓練網路的時候載入資料都是稀裡糊塗的放進去的,也沒有理清楚裡面的流程,今天整理一下,加深理解,也方便以後查閱。
epoch
:1個epoch等於使用訓練集中的全部樣本訓練一次,通俗的講epoch的值就是整個資料集被輪幾次。batch_size
:批大小。在深度學習中,一般採用SGD訓練,即每次訓練在訓練集中取batchsize個樣本訓練;iteration
:1個iteration等於使用batch_size個樣本訓練一次;深度學習的優化演演算法,說白了就是梯度下降。每次的引數更新有兩種方式。
第一種,遍歷全部資料集
算一次損失函數,然後算函數對各個引數的梯度,更新梯度,這稱為批梯度下降(Batch gradient descent)
。
這樣做至少有 2 個好處:其一,由全資料集確定的方向能夠更好地代表樣本總體,從而更準確地朝向極值所在的方向。其二,由於不同權重的梯度值差別巨大,因此選取一個全域性的學習率很困難。 Full Batch Learning 可以使用 Rprop 只基於梯度符號並且針對性單獨更新各權值。
對於更大的資料集,以上 2 個好處又變成了 2 個壞處:其一,隨著資料集的海量增長和記憶體限制,一次性載入所有的資料進來變得越來越不可行。其二,以 Rprop 的方式迭代,會由於各個 Batch 之間的取樣差異性,各次梯度修正值相互抵消,無法修正。這才有了後來 RMSProp 的妥協方案。
另一種,每看一個資料就算一下損失函數
,然後求梯度更新引數,這個稱為隨機梯度下降(Stochastic gradient descent)
。這個方法速度比較快,但是收斂效能不太好,可能在最優點附近晃來晃去,達不到最優點。兩次引數的更新也有可能互相抵消掉,造成目標函數震盪的比較劇烈。
為了克服兩種方法的缺點,現在一般採用的是一種折中手段,mini-batch gradient decent
,小批的梯度下降,這種方法把資料分為若干個批,按批來更新引數,這樣,一個批中的一組資料共同決定了本次梯度的方向,下降起來就不容易跑偏,減少了隨機性。另一方面因為批的樣本數與整個資料集相比小了很多,計算量也不是很大。
現在用的優化器SGD是stochastic gradient descent的縮寫,但不代表是一個樣本就更新一回,還是基於mini-batch的。
在小批次梯度下降的情況下,流行的批次大小包括32,64和128個樣本。
以BCICIV_2a資料為例
import mne import numpy as np import torch import torch.nn as nn
class LoadData: def __init__(self,eeg_file_path: str): self.eeg_file_path = eeg_file_path def load_raw_data_gdf(self,file_to_load): self.raw_eeg_subject = mne.io.read_raw_gdf(self.eeg_file_path + '/' + file_to_load) return self def load_raw_data_mat(self,file_to_load): import scipy.io as sio self.raw_eeg_subject = sio.loadmat(self.eeg_file_path + '/' + file_to_load) def get_all_files(self,file_path_extension: str =''): if file_path_extension: return glob.glob(self.eeg_file_path+'/'+file_path_extension) return os.listdir(self.eeg_file_path)
class LoadBCIC(LoadData): '''Subclass of LoadData for loading BCI Competition IV Dataset 2a''' def __init__(self, file_to_load, *args): self.stimcodes=('769','770','771','772') # self.epoched_data={} self.file_to_load = file_to_load self.channels_to_remove = ['EOG-left', 'EOG-central', 'EOG-right'] super(LoadBCIC,self).__init__(*args) def get_epochs(self, tmin=0,tmax=1,baseline=None): self.load_raw_data_gdf(self.file_to_load) raw_data = self.raw_eeg_subject # raw_downsampled = raw_data.copy().resample(sfreq=128) self.fs = raw_data.info.get('sfreq') events, event_ids = mne.events_from_annotations(raw_data) stims =[value for key, value in event_ids.items() if key in self.stimcodes] epochs = mne.Epochs(raw_data, events, event_id=stims, tmin=tmin, tmax=tmax, event_repeated='drop', baseline=baseline, preload=True, proj=False, reject_by_annotation=False) epochs = epochs.drop_channels(self.channels_to_remove) self.y_labels = epochs.events[:, -1] - min(epochs.events[:, -1]) self.x_data = epochs.get_data()*1e6 eeg_data={'x_data':self.x_data, 'y_labels':self.y_labels, 'fs':self.fs} return eeg_data
data_path = "/home/pytorch/LiangXiaohan/MI_Dataverse/BCICIV_2a_gdf" file_to_load = 'A01T.gdf'
'''for BCIC Dataset''' bcic_data = LoadBCIC(file_to_load, data_path) eeg_data = bcic_data.get_epochs() # {'x_data':, 'y_labels':, 'fs':}
X = eeg_data.get('x_data') Y = eeg_data.get('y_labels') Y.shape
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0) X_train.shape
from sklearn.model_selection import StratifiedKFold train_idx = {} eval_idx = {}
skf = StratifiedKFold(n_splits=4, shuffle=True) i = 0 for train_indices, eval_indices in skf.split(X_train, y_train): train_idx.update({i: train_indices}) eval_idx.update({i: eval_indices}) i += 1 train_idx.get(1).shape
def split_xdata(eeg_data, train_idx, eval_idx): x_train=np.copy(eeg_data[train_idx,:,:]) x_eval=np.copy(eeg_data[eval_idx,:,:]) x_train = torch.from_numpy(x_train).to(torch.float32) x_eval = torch.from_numpy(x_eval).to(torch.float32) return x_train, x_eval
def split_ydata(y_true, train_idx, eval_idx): y_train = np.copy(y_true[train_idx]) y_eval = np.copy(y_true[eval_idx]) y_train = torch.from_numpy(y_train) y_eval = torch.from_numpy(y_eval) return y_train, y_eval
x_train, x_eval = split_xdata(X_train, train_idx.get(1), eval_idx.get(1)) y_train, y_eval = split_ydata(Y_train, train_idx.get(1), eval_idx.get(1)) y_train.shape
from torch.utils.data import Dataset, DataLoader, TensorDataset from tqdm import tqdm def BCICDataLoader(x_train, y_train, batch_size=64, num_workers=2, shuffle=True): data = TensorDataset(x_train, y_train) train_data = DataLoader(dataset=data, batch_size=batch_size, shuffle=shuffle, num_workers=num_workers) return train_data
train_data = BCICDataLoader(x_train, y_train, batch_size=32) for inputs, target in tqdm(train_data): print(target)
到此資料就讀出來了!!!
https://pytorch.org/docs/stable/data.html?highlight=tensordataset
https://pytorch.org/docs/stable/data.html?highlight=dataloader
深度學習中的batch、epoch、iteration的含義
到此這篇關於pytorch+sklearn實現資料載入的文章就介紹到這了,更多相關pytorch資料載入內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45