欧美1区2区3区激情无套,两个女人互添下身视频在线观看,久久av无码精品人妻系列,久久精品噜噜噜成人,末发育娇小性色xxxx

【6】機(jī)器學(xué)習(xí)算法面試八股

91VGG使用3*3卷積核的優(yōu)勢(shì)是什么? (采用連續(xù)的幾個(gè)3x3的卷積核代替AlexNet中的較大卷積核(11x11,7x7,5x5))

2個(gè)33的卷積核串聯(lián)和55的卷積核有相同的感知野,前者擁有更少的參數(shù)。多個(gè)33的卷積核比一個(gè)較大尺寸的卷積核有更多層的非線性函數(shù),增加了非線性表達(dá),使判決函數(shù)更具有判決性。 用C0個(gè)33Ci的卷積核進(jìn)行卷積操作,所以參數(shù)量為33CiC02個(gè)·33參數(shù)量:18 1個(gè)·55參數(shù)量: 25

92Relu比Sigmoid的效果好在哪里?

Sigmoid的導(dǎo)數(shù)只有在0的附近時(shí)有較好的激活性,而在正負(fù)飽和區(qū)域的梯度趨向于0,從而產(chǎn)生梯度彌散的現(xiàn)象,而relu在大于0的部分梯度為常數(shù),所以不會(huì)有梯度彌散現(xiàn)象。Relu的導(dǎo)數(shù)計(jì)算的更快。Relu在負(fù)半?yún)^(qū)的導(dǎo)數(shù)為0,所以神經(jīng)元激活值為負(fù)時(shí),梯度為0,此神經(jīng)元不參與訓(xùn)練,具有稀疏性

93神經(jīng)網(wǎng)絡(luò)中權(quán)重共享的是? 卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)可以看做是在空間位置上共享參數(shù),循環(huán)神經(jīng)網(wǎng)絡(luò)可以看做是在時(shí)間位置上共享參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積核來(lái)實(shí)現(xiàn)權(quán)重共享;循環(huán)神經(jīng)網(wǎng)絡(luò)在理論上可以看做是統(tǒng)一神經(jīng)結(jié)構(gòu)被無(wú)限復(fù)制的結(jié)果全連接層參數(shù):由于全連接層只能接收一維向量,因此對(duì)于輸入為M x N的圖像,需要先展平為一維的(MxN) x 1。因此若得到的特征圖feature map大小為P x Q(對(duì)應(yīng)的一維向量為(PxQ) x 1),則map中每個(gè)元素需要MxN個(gè)權(quán)重,分別于輸入圖對(duì)應(yīng)做加和,于是最后需要M x N x P x Q個(gè)參數(shù)權(quán)重若原image大小為M x N x K1 單個(gè)卷積核大小為F x F x K1,共K2個(gè)卷積核,則總共需要F x F x K1 x K2個(gè)參數(shù),之所以在卷積神經(jīng)網(wǎng)絡(luò)可以用到權(quán)值共享,則是考慮到對(duì)于一張圖像的某個(gè)像素點(diǎn),其往往具有局部相關(guān)性,即與其相鄰的像素點(diǎn)相關(guān)性較大,越遠(yuǎn)相關(guān)性越小,這樣通過(guò)一步步增加網(wǎng)絡(luò)深度,也能慢慢學(xué)到圖像的全局特征RNN中需要用參數(shù)共享,一方面跟CNN一樣,是為了減少參數(shù)量另一方面,由于原始RNN是變長(zhǎng)的,因此若不共享,每個(gè)W都不同,那么需要設(shè)置多少個(gè)W就無(wú)法提前知曉了,實(shí)現(xiàn)上困難

94神經(jīng)網(wǎng)絡(luò)激活函數(shù)?

sigmod、tanh、relu激活函數(shù)(activation functions)的目標(biāo)是負(fù)責(zé)將神經(jīng)元的輸入映射到輸出端,將神經(jīng)網(wǎng)絡(luò)非線性化,提高神經(jīng)網(wǎng)絡(luò)對(duì)模型的表達(dá)能力,解決線性模型所不能解決的問(wèn)題。。激活函數(shù)是連續(xù)的(continuous),且可導(dǎo)的(differential)當(dāng)使用sigmoid作為激活函數(shù)時(shí),隨著神經(jīng)網(wǎng)絡(luò)隱含層(hidden layer)層數(shù)的增加,訓(xùn)練誤差反而加大。表現(xiàn)為:梯度彌散:

  1. 靠近輸出層的隱含層梯度較大,參數(shù)更新速度快,很快就會(huì)收斂;
  2. 靠近輸入層的隱含層梯度較小,參數(shù)更新速度慢,幾乎和初始狀態(tài)一樣,隨機(jī)分布;
  3. 在含有四個(gè)隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)中,第一層比第四層慢了接近100倍!

sigmoid缺點(diǎn):? 激活函數(shù)的計(jì)算量較大,在反向傳播中,當(dāng)求誤差梯度時(shí),求導(dǎo)涉及除法;? 在反向傳播中,容易就會(huì)出現(xiàn)梯度消失(函數(shù)值趨近于0和1時(shí))和·梯度爆炸(x=0處),無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn)練;? 函數(shù)的敏感區(qū)間較短,(-1,1)之間較為敏感,超過(guò)區(qū)間,則處于飽和狀態(tài)? 不以零為中心:sigmoid函數(shù)的輸出恒為正值,不是以零為中心的,這會(huì)導(dǎo)致權(quán)值更新時(shí)只能朝一個(gè)方向更新,從而影響收斂速度。

1)tanh的導(dǎo)數(shù)取值范圍在0至1之間,優(yōu)于sigmoid的0至1/4,在一定程度上,減輕了梯度消失的問(wèn)題(但仍然會(huì)有梯度消失問(wèn)題),即梯度變化更快,也就是在訓(xùn)練過(guò)程中收斂速度更快。2)輸出值以 0 為中心,解決了sigmoid函數(shù)輸出值只為正,梯度只向一個(gè)方向更新的問(wèn)題。tanh的輸出和輸入能夠保持非線性單調(diào)上升和下降關(guān)系,符合BP(back propagation)網(wǎng)絡(luò)的梯度求解,容錯(cuò)性好,有界。tanh和sigmoid都是全部激活(fire),使得神經(jīng)網(wǎng)絡(luò)較重(heavy)缺點(diǎn):依然存在sigmoid中梯度消失和爆炸的問(wèn)題和指數(shù)運(yùn)算計(jì)算量大的問(wèn)題。

95relu,(在正區(qū)間解決梯度消失)

即Rectified Linear Unit,整流線性單元,激活部分神經(jīng)元,增加稀疏性,當(dāng)x小于0時(shí),輸出值為0,當(dāng)x大于0時(shí),輸出值為x.relu對(duì)比于sigmoid:? sigmoid的導(dǎo)數(shù),只有在0附近,具有較好的激活性,而在正負(fù)飽和區(qū)的梯度都接近于0,會(huì)造成梯度彌散;而relu的導(dǎo)數(shù),在大于0時(shí),梯度為常數(shù),不會(huì)導(dǎo)致梯度彌散。? relu函數(shù)在負(fù)半?yún)^(qū)的導(dǎo)數(shù)為0 ,當(dāng)神經(jīng)元激活值進(jìn)入負(fù)半?yún)^(qū),梯度就會(huì)為0,也就是說(shuō),這個(gè)神經(jīng)元不會(huì)被訓(xùn)練,即稀疏性;? relu函數(shù)的導(dǎo)數(shù)計(jì)算更快,程序?qū)崿F(xiàn)就是一個(gè)if-else語(yǔ)句;而sigmoid函數(shù)要進(jìn)行浮點(diǎn)四則運(yùn)算,涉及到除法;缺點(diǎn):不以零為中心:和 Sigmoid 激活函數(shù)類似,ReLU 函數(shù)的輸出不以零為中心,因此只存在正向梯度。負(fù)值區(qū)域(x< 0 )存在梯度消失問(wèn)題。如果 x < 0,則神經(jīng)元保持非激活狀態(tài),且在反向傳播過(guò)程中「殺死」梯度。這樣權(quán)重?zé)o法得到更新,網(wǎng)絡(luò)無(wú)法學(xué)習(xí)。在神經(jīng)網(wǎng)絡(luò)中,隱含層的激活函數(shù),最好選擇ReLU所以,要結(jié)合具體問(wèn)題以及激活函數(shù)的特點(diǎn),恰當(dāng)?shù)剡x擇。下面是一些經(jīng)驗(yàn),供參考:? Sigmoid函數(shù)比較適合于二分類模型。? 使用Sigmoid函數(shù)和tanh函數(shù),要注意梯度消失問(wèn)題。? ReLU函數(shù)是應(yīng)用比較廣泛的激活函數(shù),可以作為你的默認(rèn)選項(xiàng)。? 如果網(wǎng)絡(luò)中存在大量未激活神經(jīng)元,可以考慮leaky ReLU函數(shù)。? ReLU函數(shù)應(yīng)該只用于隱藏層。? 如果是回歸模型,在輸出層上可以使用線性激活函數(shù)當(dāng)神經(jīng)網(wǎng)絡(luò)很深時(shí),梯度呈指數(shù)級(jí)增長(zhǎng),最后到輸入時(shí),梯度將會(huì)非常大,我們會(huì)得到一個(gè)非常大的權(quán)重更新,這就是梯度爆炸的問(wèn)題

96如何解決梯度消失和爆炸問(wèn)題:

1非飽和的激活函數(shù)(如 ReLU)2批量規(guī)范化(Batch Normalization)3梯度截?cái)啵℅radient Clipping)4更快的優(yōu)化器1)、使用 ReLU、LReLU、ELU、maxout 等激活函數(shù)sigmoid函數(shù)的梯度隨著x的增大或減小和消失,而ReLU不會(huì)。2)、使用批規(guī)范化通過(guò)規(guī)范化操作將輸出信號(hào)x規(guī)范化到均值為0,方差為1保證網(wǎng)絡(luò)的穩(wěn)定性。從上述分析分可以看到,反向傳播式子中有w的存在,所以w的大小影響了梯度的消失和爆炸,Batch Normalization 就是通過(guò)對(duì)每一層的輸出規(guī)范為均值和方差一致的方法,消除了w帶來(lái)的放大縮小的影響,進(jìn)而解決梯度消失和爆炸的問(wèn)題。

97在深度學(xué)習(xí)中,通常會(huì)finetuning(微調(diào))已有的成熟模型,再基于新數(shù)據(jù),修改最后幾層神經(jīng)網(wǎng)絡(luò)權(quán)值,為什么?

實(shí)踐中的數(shù)據(jù)集質(zhì)量參差不齊,可以使用訓(xùn)練好的網(wǎng)絡(luò)來(lái)進(jìn)行提取特征。把訓(xùn)練好的網(wǎng)絡(luò)當(dāng)做特征提取器。決定如何使用遷移學(xué)習(xí)的因素有很多,這是最重要的只有兩個(gè):新數(shù)據(jù)集的大小、以及新數(shù)據(jù)和原數(shù)據(jù)集的相似程度。有一點(diǎn)一定記?。壕W(wǎng)絡(luò)前幾層學(xué)到的是通用特征,后面幾層學(xué)到的是與類別相關(guān)的特征。1、新數(shù)據(jù)集比較小且和原數(shù)據(jù)集相似。因?yàn)樾聰?shù)據(jù)集比較小,如果fine-tune可能會(huì)過(guò)擬合;又因?yàn)樾屡f數(shù)據(jù)集類似,我們期望他們高層特征類似,可以使用預(yù)訓(xùn)練網(wǎng)絡(luò)當(dāng)做特征提取器,用提取的特征訓(xùn)練線性分類器。2、新數(shù)據(jù)集大且和原數(shù)據(jù)集相似。因?yàn)樾聰?shù)據(jù)集足夠大,可以fine-tune整個(gè)網(wǎng)絡(luò)。3、新數(shù)據(jù)集小且和原數(shù)據(jù)集不相似。新數(shù)據(jù)集小,最好不要fine-tune,和原數(shù)據(jù)集不類似,最好也不使用高層特征。這時(shí)可是使用前面層的特征來(lái)訓(xùn)練SVM分類器。4、新數(shù)據(jù)集大且和原數(shù)據(jù)集不相似。因?yàn)樾聰?shù)據(jù)集足夠大,可以重新訓(xùn)練。但是實(shí)踐中fine-tune預(yù)訓(xùn)練模型還是有益的。新數(shù)據(jù)集足夠大,可以fine-tine整個(gè)網(wǎng)絡(luò)。與重新訓(xùn)練相比,fine-tune要使用更小的學(xué)習(xí)率。

98微調(diào)時(shí)候網(wǎng)絡(luò)參數(shù)是否更新?

答案:會(huì)更新。

  1. finetune 的過(guò)程相當(dāng)于繼續(xù)訓(xùn)練,跟直接訓(xùn)練的區(qū)別是初始化的時(shí)候。
  2. 直接訓(xùn)練是按照網(wǎng)絡(luò)定義指定的方式初始化。
  3. finetune是用你已經(jīng)有的參數(shù)文件來(lái)初始化。
  4. fine-tuning 模型的三種狀態(tài) 狀態(tài)一:只預(yù)測(cè),不訓(xùn)練。 特點(diǎn):相對(duì)快、簡(jiǎn)單,針對(duì)那些已經(jīng)訓(xùn)練好,現(xiàn)在要實(shí)際對(duì)未知數(shù)據(jù)進(jìn)行標(biāo)注的項(xiàng)目,非常高效; 狀態(tài)二:訓(xùn)練,但只訓(xùn)練最后分類層。 特點(diǎn):fine-tuning的模型最終的分類以及符合要求,現(xiàn)在只是在他們的基礎(chǔ)上進(jìn)行類別降維。 狀態(tài)三:完全訓(xùn)練,分類層+之前卷積層都訓(xùn)練 特點(diǎn):跟狀態(tài)二的差異很小,當(dāng)然狀態(tài)三比較耗時(shí)和需要訓(xùn)練GPU資源,不過(guò)非常適合fine-tuning到自己想要的模型里面,預(yù)測(cè)精度相比狀態(tài)二也提高不少。

99Attention機(jī)制的作用

Attention簡(jiǎn)單理解就是權(quán)重分配。減少處理高維輸入數(shù)據(jù)的計(jì)算負(fù)擔(dān),結(jié)構(gòu)化的選取輸入的子集,從而降低數(shù)據(jù)的維度。讓系統(tǒng)更加容易的找到輸入的數(shù)據(jù)中與當(dāng)前輸出信息相關(guān)的有用信息,從而提高輸出的質(zhì)量。幫助類似于decoder這樣的模型框架更好的學(xué)到多種內(nèi)容模態(tài)之間的相互關(guān)系。

100Lstm和Gru的原理

Lstm由輸入門(mén),遺忘門(mén),輸出門(mén)和一個(gè)cell組成。第一步是決定從cell狀態(tài)中丟棄什么信息,然后在決定有多少新的信息進(jìn)入到cell狀態(tài)中,最終基于目前的cell狀態(tài)決定輸出什么樣的信息。Gru由重置門(mén)和跟新門(mén)組成,其輸入為前一時(shí)刻隱藏層的輸出和當(dāng)前的輸入,輸出為下一時(shí)刻隱藏層的信息。重置門(mén)用來(lái)計(jì)算候選隱藏層的輸出,其作用是控制保留多少前一時(shí)刻的隱藏層。跟新門(mén)的作用是控制加入多少候選隱藏層的輸出信息,從而得到當(dāng)前隱藏層的輸出。

101什么是dropout

在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,對(duì)于隱藏層神經(jīng)單元按一定的概率將其隨機(jī)從網(wǎng)絡(luò)中丟棄,從而達(dá)到對(duì)于每個(gè)mini-batch都是在訓(xùn)練不同網(wǎng)絡(luò)的效果,防止過(guò)擬合。

102DropConnect的原理

防止過(guò)擬合方法的一種,對(duì)每個(gè)節(jié)點(diǎn)與之相連的輸入權(quán)值以一定的概率清0。

103用過(guò)哪些移動(dòng)端深度學(xué)習(xí)框架?

開(kāi)源的有:小米的MACE,驍龍的SNPE,騰訊的FeatherCNN和ncnn,百度的mobile-deep-learning(MDL);caffe、tensorflow lite都有移動(dòng)端,只是可能沒(méi)有上面的框架效率高。據(jù)傳還有支付寶的xNN,商湯的PPL,不過(guò)都是自用,未開(kāi)源。

104Adam

Adam 算法和傳統(tǒng)的隨機(jī)梯度下降不同。隨機(jī)梯度下降保持單一的學(xué)習(xí)率(即 alpha)更新所有的權(quán)重,學(xué)習(xí)率在訓(xùn)練過(guò)程中并不會(huì)改變。而 Adam 通過(guò)計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)而為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率。

105學(xué)習(xí)率的設(shè)定類型

1)固定學(xué)習(xí)率每次迭代每個(gè)參數(shù)都使用同樣的學(xué)習(xí)率。找到一個(gè)比較好的固定學(xué)習(xí)率非常關(guān)鍵,否則會(huì)導(dǎo)致收斂太慢或者不收斂。2)不同的參數(shù)使用不同的學(xué)習(xí)率如果數(shù)據(jù)是稀疏的且特征分布不均,似乎我們更應(yīng)該給予較少出現(xiàn)的特征一個(gè)大的更新。這時(shí)可能需要對(duì)不同特征對(duì)應(yīng)的參數(shù)設(shè)定不同的學(xué)習(xí)率。深度學(xué)習(xí)的梯度下降算法中Adagrad 和Adam方法都針對(duì)每個(gè)參數(shù)設(shè)置了相應(yīng)的學(xué)習(xí)率3)動(dòng)態(tài)調(diào)整學(xué)習(xí)率動(dòng)態(tài)調(diào)整就是我們根據(jù)應(yīng)用場(chǎng)景,在不同的優(yōu)化階段能夠動(dòng)態(tài)改變學(xué)習(xí)率,以得到更好的結(jié)果。動(dòng)態(tài)調(diào)整學(xué)習(xí)率是本篇的重點(diǎn)內(nèi)容,為了解決梯度學(xué)習(xí)在一些復(fù)雜問(wèn)題時(shí)出現(xiàn)的挑戰(zhàn),數(shù)據(jù)科學(xué)家們?cè)趧?dòng)態(tài)調(diào)整學(xué)習(xí)率的策略上做了很多研究和嘗試。4)自適應(yīng)學(xué)習(xí)率自適應(yīng)學(xué)習(xí)率從某種程度上講也算是動(dòng)態(tài)調(diào)整學(xué)習(xí)率的范疇,不過(guò)更偏向于通過(guò)某種算法來(lái)根據(jù)實(shí)時(shí)情況計(jì)算出最優(yōu)學(xué)習(xí)率,而不是人為固定一個(gè)簡(jiǎn)單策略讓梯度下降按部就班地實(shí)行。

106RNN梯度消失問(wèn)題,為什么LSTM和GRU可以解決此問(wèn)題

RNN由于網(wǎng)絡(luò)較深,后面層的輸出誤差很難影響到前面層的計(jì)算,RNN的某一單元主要受它附近單元的影響。而LSTM因?yàn)榭梢酝ㄟ^(guò)閥門(mén)記憶一些長(zhǎng)期的信息,相應(yīng)的也就保留了更多的梯度。而GRU也可通過(guò)重置和更新兩個(gè)閥門(mén)保留長(zhǎng)期的記憶,也相對(duì)解決了梯度消失的問(wèn)題。累乘變累加:RNN的梯度消失主要是因?yàn)樵谟?jì)算梯度的時(shí)候會(huì)出現(xiàn)隱藏層輸出對(duì)于上一時(shí)刻的隱藏層輸出求導(dǎo),這個(gè)偏導(dǎo)算出來(lái)是(sigmoid'∈(0, 1/4)*w)的結(jié)果會(huì)接近0,又隨著序列的增長(zhǎng)而不斷連乘,這樣就會(huì)導(dǎo)致遠(yuǎn)距離的輸入對(duì)于梯度的貢獻(xiàn)會(huì)逐漸消失,近距離的輸入梯度主導(dǎo),從而是模型無(wú)法學(xué)習(xí)長(zhǎng)距離的依賴關(guān)系。LSTM其實(shí)也會(huì)有細(xì)胞狀態(tài)對(duì)上一時(shí)刻的細(xì)胞狀態(tài)的梯度連乘,但是這個(gè)梯度中包含了累加項(xiàng)(f_t + ...),其中有一項(xiàng)是忘記門(mén)輸出,可以控制梯度不至于過(guò)大或者過(guò)小。

107RNN容易梯度消失,怎么解決?

1)、梯度裁剪(Clipping Gradient)既然在BP過(guò)程中會(huì)產(chǎn)生梯度消失(就是偏導(dǎo)無(wú)限接近0,導(dǎo)致長(zhǎng)時(shí)記憶無(wú)法更新),那么最簡(jiǎn)單粗暴的方法,設(shè)定閾值,當(dāng)梯度小于閾值時(shí),更新的梯度為閾值。優(yōu)點(diǎn):簡(jiǎn)單粗暴缺點(diǎn):很難找到滿意的閾值2)、LSTM(Long Short-Term Memory)一定程度上模仿了長(zhǎng)時(shí)記憶,相比于梯度裁剪,最大的優(yōu)點(diǎn)就是,自動(dòng)學(xué)習(xí)在什么時(shí)候可以將error反向傳播,自動(dòng)控制哪些是需要作為記憶存儲(chǔ)在LSTM cell中。一般長(zhǎng)時(shí)記憶模型包括寫(xiě)入,讀取,和忘記三個(gè)過(guò)程對(duì)應(yīng)到LSTM中就變成了input_gate,output_gate,forget_gate,三個(gè)門(mén),范圍在0到1之間,相當(dāng)于對(duì)輸入輸出進(jìn)行加權(quán)的學(xué)習(xí),利用大量數(shù)據(jù)來(lái)自動(dòng)學(xué)習(xí)加權(quán)的參數(shù)(即學(xué)習(xí)了哪些錯(cuò)誤可以用BP更新參數(shù))。具體的公式表達(dá):

優(yōu)點(diǎn):模型自動(dòng)學(xué)習(xí)更新參數(shù)

108LSTM跟RNN有啥區(qū)別

LSTM與RNN的比較RNN在處理long term memory的時(shí)候存在缺陷,因此LSTM應(yīng)運(yùn)而生。LSTM是一種變種的RNN,它的精髓在于引入了細(xì)胞狀態(tài)這樣一個(gè)概念,不同于RNN只考慮最近的狀態(tài),LSTM的細(xì)胞狀態(tài)會(huì)決定哪些狀態(tài)應(yīng)該被留下來(lái),哪些狀態(tài)應(yīng)該被遺忘。RNN在處理長(zhǎng)期依賴(時(shí)間序列上距離較遠(yuǎn)的節(jié)點(diǎn))時(shí)會(huì)遇到巨大的困難,因?yàn)橛?jì)算距離較遠(yuǎn)的節(jié)點(diǎn)之間的聯(lián)系時(shí)會(huì)涉及雅可比矩陣的多次相乘,這會(huì)帶來(lái)梯度消失(經(jīng)常發(fā)生)或者梯度膨脹(較少發(fā)生)的問(wèn)題,這樣的現(xiàn)象被許多學(xué)者觀察到并獨(dú)立研究。為了解決該問(wèn)題,研究人員提出LSTM。LSTM是門(mén)限RNN,其單一節(jié)點(diǎn)的結(jié)構(gòu)如下圖1所示。LSTM的巧妙之處在于通過(guò)增加輸入門(mén)限,遺忘門(mén)限和輸出門(mén)限,使得自循環(huán)的權(quán)重是變化的,這樣一來(lái)在模型參數(shù)固定的情況下,不同時(shí)刻的積分尺度可以動(dòng)態(tài)改變,從而避免了梯度消失或者梯度膨脹的問(wèn)題。下面來(lái)看一些RNN和LSTM內(nèi)部結(jié)構(gòu)的不同:

109LSTM與GRU區(qū)別

1)GRU和LSTM的性能在很多任務(wù)上不分伯仲。2)GRU 參數(shù)更少因此更容易收斂,但是數(shù)據(jù)集很大的情況下,LSTM表達(dá)性能更好。3)從結(jié)構(gòu)上來(lái)說(shuō),GRU只有兩個(gè)門(mén)(update和reset),LSTM有三個(gè)門(mén)(forget,input,output),GRU直接將hidden state 傳給下一個(gè)單元,而LSTM則用memory cell 把hidden state 包裝起來(lái)

110卷積層和池化層有什么區(qū)別

更多校園招聘常見(jiàn)面試問(wèn)題(開(kāi)發(fā)、算法、編程題目)參見(jiàn)CSDN博客:http://t.csdn.cn/V4qbH

歡迎關(guān)注、收藏、點(diǎn)贊后進(jìn)行問(wèn)題咨詢及秋招建議!

#??驮诰€求職答疑中心##牛客解憂鋪##我發(fā)現(xiàn)了面試通關(guān)密碼##如何判斷面試是否涼了##實(shí)習(xí),投遞多份簡(jiǎn)歷沒(méi)人回復(fù)怎么辦#

介紹秋招面試過(guò)程中對(duì)機(jī)器學(xué)習(xí)算法、數(shù)據(jù)挖掘、python語(yǔ)言、C++語(yǔ)言、數(shù)據(jù)結(jié)構(gòu)的面試題目和基礎(chǔ)總結(jié)

全部評(píng)論
講解的很細(xì)致,果斷關(guān)注了
點(diǎn)贊 回復(fù) 分享
發(fā)布于 2024-02-19 09:56 山東
你好,請(qǐng)問(wèn)這些有總結(jié)的鏈接嗎?(禮貌求
點(diǎn)贊 回復(fù) 分享
發(fā)布于 2023-11-27 23:13 遼寧

相關(guān)推薦

有沒(méi)有友友知道hr面會(huì)問(wèn)什么我應(yīng)該反問(wèn)什么?還有如何防止hr套話?。窟€有應(yīng)該如果催h(yuǎn)r推進(jìn)快一點(diǎn)#字節(jié)#OPPO#hr面
???89988346號(hào):職業(yè)規(guī)劃,優(yōu)缺點(diǎn),為什么選擇這個(gè)崗,對(duì)應(yīng)聘公司產(chǎn)品的了解和滿意度,如果讓你改進(jìn)公司產(chǎn)品你會(huì)怎么做,對(duì)ai(新技術(shù))的了解,有無(wú)其他offer,什么時(shí)候能到崗
點(diǎn)贊 評(píng)論 收藏
分享
野蠻的柯基在游泳:都能入股了,還得是Java
點(diǎn)贊 評(píng)論 收藏
分享
評(píng)論
10
93
分享

創(chuàng)作者周榜

更多
??途W(wǎng)
??推髽I(yè)服務(wù)