欧美1区2区3区激情无套,两个女人互添下身视频在线观看,久久av无码精品人妻系列,久久精品噜噜噜成人,末发育娇小性色xxxx

NLP算法面經(jīng)16

10.17 螞蟻 NLP (2+1)
1. 項(xiàng)目+實(shí)習(xí)
2. 強(qiáng)化學(xué)習(xí)的發(fā)展歷程
3. 多頭注意力書寫
4. Lora的優(yōu)勢(shì)
5. 對(duì)話的掩碼方式,其次是整體計(jì)算?
6. deepspeed zero123區(qū)別,有沒有看過顯存占用
7. grpo比dpo和ppo優(yōu)勢(shì)在哪?
8. MLA相比GQA的優(yōu)勢(shì)?
9. Agent的看法?
10. 跨模態(tài)處理的有效方法?
11. Qwen2-VL的框架介紹?
#大模型# #算法# #互聯(lián)網(wǎng)大廠# 面經(jīng) #nlp# 螞蟻 #阿里# #互聯(lián)網(wǎng)大廠實(shí)習(xí)#
全部評(píng)論

相關(guān)推薦

翻遍各種大模型的實(shí)現(xiàn),雖然結(jié)構(gòu)上可能保留了 dropout 的實(shí)現(xiàn),但是采樣概率都設(shè)置為 0 了。唯一一個(gè)比較新的,還用 Dropout 的模型是 Meta 訓(xùn)練的 Galactica 模型。那為什么現(xiàn)在不用了呢?核心還是要弄清楚 Dropout 的使用場(chǎng)景。Dropout 之前在深度學(xué)習(xí)當(dāng)中是一個(gè)特別好用的方法,可以防止過擬合,提高泛化。所以說,當(dāng)模型較大,數(shù)據(jù)較少的時(shí)候,使用 Dropout 是比較合適的?,F(xiàn)在大模型處在什么狀態(tài)呢??預(yù)訓(xùn)練在預(yù)訓(xùn)練階段,目前可能還是處于欠擬合的狀態(tài)。之所以說可能,是基于目前公開的一些論文的出的結(jié)論。但是現(xiàn)在閉源的公司在采用大量數(shù)據(jù)合成的情況下,已經(jīng)訓(xùn)練足夠充分或者接近充分也說不定。以 llama 一系列論文為例,訓(xùn)練 llama 1 的時(shí)候,龍貓 Scaling law 里面提到 GPT3 是一個(gè)訓(xùn)練很不充分的模型。然后給出的數(shù)據(jù)配比的建議是,10B 的模型要采用 200B 的 token 來訓(xùn)練。但是 llama 1 采用了 7B 的模型,訓(xùn)練量 1T 的 token 發(fā)現(xiàn)性能依然有提升。而且預(yù)訓(xùn)練所有的語料一般只過一個(gè) epoch,某些特定的領(lǐng)域可能過 2個(gè) epoch,可以認(rèn)為樣本的重復(fù)率很低。所以,在數(shù)據(jù)足夠多,多樣性足夠而且沒有太多重復(fù)的情況下,大模型在預(yù)訓(xùn)練階段仍然沒有過擬合的風(fēng)險(xiǎn)。也就完全不需要采用 dropout。?Dropout 就完全不需要了么?如果上面的條件不能滿足,Dropout 還是有用武之地的。比如前面提到的 Galactica 模型。這個(gè)模型和其他大模型不太一樣的地方是訓(xùn)練了 4.25 個(gè) epoch,因?yàn)樗麄冋J(rèn)為高質(zhì)量的數(shù)據(jù)更重要一些,但是又沒有那么多,所以就 repeat 數(shù)據(jù)了。在論文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》 中,詳細(xì)列舉了數(shù)據(jù) Repeat 對(duì)訓(xùn)練 LLM 的影響,并且證明了 Dropout 可以緩解數(shù)據(jù)重復(fù)帶來的性能損失。在文章《Can LLMs learn from a single example?》中,也提到了在 SFT 的時(shí)候,少量的重復(fù)數(shù)據(jù)就會(huì)降低模型的性能。這也符合常理,SFT 的數(shù)據(jù)分布和預(yù)訓(xùn)練的通常是不太一樣的,重復(fù)的數(shù)據(jù)會(huì)讓模型擬合新的分布,從而忘掉舊的分布。文中同樣也提到 Dropout 可以緩解數(shù)據(jù)重復(fù)帶來的影響。所以 Dropout 在數(shù)據(jù)量較少,多樣性不高,需要 repeat 的場(chǎng)景下,依然是一個(gè)減少過擬合的很方便的手段。比如現(xiàn)在已經(jīng)有一些在 LoRA 微調(diào)的時(shí)候采用 Dropout 的研究了。#算法# #簡(jiǎn)歷中的項(xiàng)目經(jīng)歷要怎么寫# #算法崗面試# #互聯(lián)網(wǎng)大廠招聘# #大模型# #大模型面經(jīng)#
點(diǎn)贊 評(píng)論 收藏
分享
評(píng)論
點(diǎn)贊
1
分享

創(chuàng)作者周榜

更多
??途W(wǎng)
牛客企業(yè)服務(wù)