3.7 小米算法實(shí)習(xí)生(大模型)一面(50min)
3.7 小米算法實(shí)習(xí)生(大模型)一面(50min)
無臉男
自我介紹
項(xiàng)目主要想完成的目標(biāo)
論文有哪些idea
介紹PPO算法
為什么PPO算法要用優(yōu)勢函數(shù)來評估,為什么不能直接用reward反饋(拷打到死)
GRPO算法
優(yōu)勢函數(shù)是什么的優(yōu)勢
GAE廣義優(yōu)勢的缺點(diǎn)
介紹Qlora,對什么進(jìn)行4bit量化,lora初始矩陣是什么,lora矩陣的量化
撕題:數(shù)組中找出第k大的數(shù)
無反問
無臉男
自我介紹
項(xiàng)目主要想完成的目標(biāo)
論文有哪些idea
介紹PPO算法
為什么PPO算法要用優(yōu)勢函數(shù)來評估,為什么不能直接用reward反饋(拷打到死)
GRPO算法
優(yōu)勢函數(shù)是什么的優(yōu)勢
GAE廣義優(yōu)勢的缺點(diǎn)
介紹Qlora,對什么進(jìn)行4bit量化,lora初始矩陣是什么,lora矩陣的量化
撕題:數(shù)組中找出第k大的數(shù)
無反問
全部評論
佬是項(xiàng)目里就有rl嗎
相關(guān)推薦
點(diǎn)贊 評論 收藏
分享