螞蟻一面被拷打
1.DeepSpeed Zero(123)
2.流水線并行
3.顯存中模型參數(shù),梯度,優(yōu)化器參數(shù)的比例
4.混合精度,在模型訓(xùn)練的過(guò)程中混合精度的變化過(guò)程
5.流水線并行的時(shí)候氣泡現(xiàn)象
6.介紹PPO,DPO,GRPO
7.Prompt設(shè)計(jì)
8.模型重復(fù)輸出應(yīng)該如何解決
9.TopK,TopP,Temperature
10.介紹Encode結(jié)構(gòu)
11.有哪些位置編碼
12.RoPE如何實(shí)現(xiàn)
13.DeepSeek的注意力機(jī)制MLA
14.DeepSeek的混合專家模型MoE
15.模型的外推性
16.Layer normalization在前面和在后面的區(qū)別和優(yōu)缺點(diǎn)
17.Batch norm相比Layer norm
18.RMS norm為啥去掉減去均值的步驟也可以有效?
19.word embedding
20.有哪些高效微調(diào)的方法
21.了解QWQ模型嗎
2.流水線并行
3.顯存中模型參數(shù),梯度,優(yōu)化器參數(shù)的比例
4.混合精度,在模型訓(xùn)練的過(guò)程中混合精度的變化過(guò)程
5.流水線并行的時(shí)候氣泡現(xiàn)象
6.介紹PPO,DPO,GRPO
7.Prompt設(shè)計(jì)
8.模型重復(fù)輸出應(yīng)該如何解決
9.TopK,TopP,Temperature
10.介紹Encode結(jié)構(gòu)
11.有哪些位置編碼
12.RoPE如何實(shí)現(xiàn)
13.DeepSeek的注意力機(jī)制MLA
14.DeepSeek的混合專家模型MoE
15.模型的外推性
16.Layer normalization在前面和在后面的區(qū)別和優(yōu)缺點(diǎn)
17.Batch norm相比Layer norm
18.RMS norm為啥去掉減去均值的步驟也可以有效?
19.word embedding
20.有哪些高效微調(diào)的方法
21.了解QWQ模型嗎
全部評(píng)論
相關(guān)推薦

點(diǎn)贊 評(píng)論 收藏
分享
點(diǎn)贊 評(píng)論 收藏
分享
03-29 17:59
門(mén)頭溝學(xué)院 大數(shù)據(jù)開(kāi)發(fā)工程師 點(diǎn)贊 評(píng)論 收藏
分享
05-06 08:51
華北理工大學(xué) 后端 點(diǎn)贊 評(píng)論 收藏
分享
點(diǎn)贊 評(píng)論 收藏
分享