騰訊/百度/minimax 大模型算法面經(jīng)總結(jié)帖
騰訊NLP
1.跨模態(tài)對(duì)齊有哪些方式?為何逐漸不使用Q-Former?
2. Baichuan2 - 7B模型架構(gòu)是怎樣的?其位置編碼如何實(shí)現(xiàn)?與Qwen家的位置編碼實(shí)現(xiàn)有何不同?
3. 了解Qwen - VL嗎?其架構(gòu)如何?有何獨(dú)特之處?
4. Adapter、P - tuning和Lora之間的區(qū)別與聯(lián)系是什么?
5. 數(shù)據(jù)集如何構(gòu)建與評(píng)測(cè)?
6. 數(shù)據(jù)集評(píng)估過(guò)程中遇到哪些困難?如何解決?
7. RAG檢索內(nèi)容是否相關(guān)?有無(wú)進(jìn)行Rerank或其他操作?
8. 對(duì)Agent有何看法?
9. 了解強(qiáng)化學(xué)習(xí)DPO嗎?與PPO有何區(qū)別?有什么好處?
10. 談一談大模型完整訓(xùn)練過(guò)程及每一階段的作用。
混元大模型團(tuán)隊(duì)
1.Qwen 和 DeepSeek 有什么區(qū)別?
2.為何大家都開(kāi)始探索 MoE 架構(gòu)?MoE 相比 Dense 有什么好處?
3.用 LoRA 微調(diào)過(guò) Qwen,是否全量微調(diào)過(guò)??jī)烧咝阅鼙憩F(xiàn)有何對(duì)比?
4.用 DeepSpeed 微調(diào)過(guò) Qwen2 - 72B,ZeRO - 1、ZeRO - 2、ZeRO - 3 三個(gè)模式的區(qū)別是什么?用 DeepSpeed ZeRO - 3 微調(diào) Qwen2 - 72B 時(shí),每一張卡占用顯存大概是多少?為什么?
5.除了 DeepSpeed,還用過(guò)哪些優(yōu)化方法?
6.知道 LoRA 的原理嗎?A 和 B 兩個(gè)矩陣怎么初始化?了解過(guò)其他初始化方法嗎?
7.講一下大模型訓(xùn)練和推理的流程,SFT 和 RLHF 的作用分別是什么?
8.在 RLHF 中,目前主流的強(qiáng)化學(xué)習(xí)算法有哪幾個(gè)?寫出損失函數(shù)的表達(dá)式。
9.對(duì) RLHF 了解多少?講一下 RLHF 的流程。之前有用 RLHF 做過(guò)模型對(duì)齊嗎?在做對(duì)齊時(shí),為什么 SFT 之后還要做 RLHF?只用 SFT 可以嗎?
10.知道哪些強(qiáng)化學(xué)習(xí)算法?除了 PPO 和 DPO,DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改進(jìn)?
11.微調(diào) Qwen 時(shí),數(shù)據(jù)是怎么構(gòu)造的?有用到什么數(shù)據(jù)清洗方法?數(shù)據(jù)配比是怎么做的?
CSIG騰訊地圖
1. 進(jìn)行自我介紹,聊簡(jiǎn)歷上和大模型相關(guān)的項(xiàng)目(約5分鐘)。
2. 講一下LORA的基本原理。
3. 了解主流的開(kāi)源大模型嗎?如Llama、Qwen、deepseek。
4. 對(duì)Python的熟悉程度如何,能用pytorch寫一下多頭注意力機(jī)制嗎?
5. C++的代碼能力情況(較隨意聊) 。
6. 手撕代碼:反轉(zhuǎn)鏈表和合并有序鏈表。
7. 反問(wèn)問(wèn)題:
- 騰訊地圖做的大模型應(yīng)用是什么?
- 對(duì)Manus的看法是什么?
百度文心一言
1. PPO 與 GRPO 的區(qū)別,分別介紹它們的優(yōu)勢(shì)與缺點(diǎn)。
2.DPO 對(duì)齊訓(xùn)練的曲線是怎么樣的,正例的概率會(huì)提升嗎?參考這個(gè)知乎回答。
3.Deepseek - R1 里面不僅推理能力很好,而且文采能力也很好,這是個(gè)開(kāi)放問(wèn)題,如何讓模型的文采能力也很好呢?
4.deepseed 介紹。
5.deepspeed 的每一段的通信比較,zero3 分別是 0 和 2 的多少倍,1.5 倍。
6.DPO 如何解決回答過(guò)長(zhǎng)的問(wèn)題,除了正則。
7.開(kāi)放問(wèn)題:為什么現(xiàn)在大家都在關(guān)注于大模型的推理能力 reasoning。
8.對(duì)于一個(gè) base model 如何增強(qiáng)大模型的 reasoning 能力。
9.DPO 除了長(zhǎng)度問(wèn)題還有其他的問(wèn)題嗎?與問(wèn)題 2 對(duì)應(yīng),reward hacking?都沒(méi)有獎(jiǎng)勵(lì)模型了。
10.說(shuō)一下 simpo 的原理,它是怎么解決 dpo 微調(diào)序列過(guò)長(zhǎng)的問(wèn)題的。
minimax
1.大模型算法中模型參數(shù)量每個(gè)部分有多少?
2.你了解哪些評(píng)估 minimax 大模型算法的手段?
3.如何評(píng)估 minimax 大模型算法中多模態(tài)模型的輸出質(zhì)量?
4.對(duì)于 minimax 大模型算法的數(shù)據(jù)集,如何提高質(zhì)量?如何利用 gpt 輔助提升數(shù)據(jù)集質(zhì)量?
5.有哪些方法可以提升 minimax 大模型算法中預(yù)訓(xùn)練模型的質(zhì)量?
1.跨模態(tài)對(duì)齊有哪些方式?為何逐漸不使用Q-Former?
2. Baichuan2 - 7B模型架構(gòu)是怎樣的?其位置編碼如何實(shí)現(xiàn)?與Qwen家的位置編碼實(shí)現(xiàn)有何不同?
3. 了解Qwen - VL嗎?其架構(gòu)如何?有何獨(dú)特之處?
4. Adapter、P - tuning和Lora之間的區(qū)別與聯(lián)系是什么?
5. 數(shù)據(jù)集如何構(gòu)建與評(píng)測(cè)?
6. 數(shù)據(jù)集評(píng)估過(guò)程中遇到哪些困難?如何解決?
7. RAG檢索內(nèi)容是否相關(guān)?有無(wú)進(jìn)行Rerank或其他操作?
8. 對(duì)Agent有何看法?
9. 了解強(qiáng)化學(xué)習(xí)DPO嗎?與PPO有何區(qū)別?有什么好處?
10. 談一談大模型完整訓(xùn)練過(guò)程及每一階段的作用。
混元大模型團(tuán)隊(duì)
1.Qwen 和 DeepSeek 有什么區(qū)別?
2.為何大家都開(kāi)始探索 MoE 架構(gòu)?MoE 相比 Dense 有什么好處?
3.用 LoRA 微調(diào)過(guò) Qwen,是否全量微調(diào)過(guò)??jī)烧咝阅鼙憩F(xiàn)有何對(duì)比?
4.用 DeepSpeed 微調(diào)過(guò) Qwen2 - 72B,ZeRO - 1、ZeRO - 2、ZeRO - 3 三個(gè)模式的區(qū)別是什么?用 DeepSpeed ZeRO - 3 微調(diào) Qwen2 - 72B 時(shí),每一張卡占用顯存大概是多少?為什么?
5.除了 DeepSpeed,還用過(guò)哪些優(yōu)化方法?
6.知道 LoRA 的原理嗎?A 和 B 兩個(gè)矩陣怎么初始化?了解過(guò)其他初始化方法嗎?
7.講一下大模型訓(xùn)練和推理的流程,SFT 和 RLHF 的作用分別是什么?
8.在 RLHF 中,目前主流的強(qiáng)化學(xué)習(xí)算法有哪幾個(gè)?寫出損失函數(shù)的表達(dá)式。
9.對(duì) RLHF 了解多少?講一下 RLHF 的流程。之前有用 RLHF 做過(guò)模型對(duì)齊嗎?在做對(duì)齊時(shí),為什么 SFT 之后還要做 RLHF?只用 SFT 可以嗎?
10.知道哪些強(qiáng)化學(xué)習(xí)算法?除了 PPO 和 DPO,DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改進(jìn)?
11.微調(diào) Qwen 時(shí),數(shù)據(jù)是怎么構(gòu)造的?有用到什么數(shù)據(jù)清洗方法?數(shù)據(jù)配比是怎么做的?
CSIG騰訊地圖
1. 進(jìn)行自我介紹,聊簡(jiǎn)歷上和大模型相關(guān)的項(xiàng)目(約5分鐘)。
2. 講一下LORA的基本原理。
3. 了解主流的開(kāi)源大模型嗎?如Llama、Qwen、deepseek。
4. 對(duì)Python的熟悉程度如何,能用pytorch寫一下多頭注意力機(jī)制嗎?
5. C++的代碼能力情況(較隨意聊) 。
6. 手撕代碼:反轉(zhuǎn)鏈表和合并有序鏈表。
7. 反問(wèn)問(wèn)題:
- 騰訊地圖做的大模型應(yīng)用是什么?
- 對(duì)Manus的看法是什么?
百度文心一言
1. PPO 與 GRPO 的區(qū)別,分別介紹它們的優(yōu)勢(shì)與缺點(diǎn)。
2.DPO 對(duì)齊訓(xùn)練的曲線是怎么樣的,正例的概率會(huì)提升嗎?參考這個(gè)知乎回答。
3.Deepseek - R1 里面不僅推理能力很好,而且文采能力也很好,這是個(gè)開(kāi)放問(wèn)題,如何讓模型的文采能力也很好呢?
4.deepseed 介紹。
5.deepspeed 的每一段的通信比較,zero3 分別是 0 和 2 的多少倍,1.5 倍。
6.DPO 如何解決回答過(guò)長(zhǎng)的問(wèn)題,除了正則。
7.開(kāi)放問(wèn)題:為什么現(xiàn)在大家都在關(guān)注于大模型的推理能力 reasoning。
8.對(duì)于一個(gè) base model 如何增強(qiáng)大模型的 reasoning 能力。
9.DPO 除了長(zhǎng)度問(wèn)題還有其他的問(wèn)題嗎?與問(wèn)題 2 對(duì)應(yīng),reward hacking?都沒(méi)有獎(jiǎng)勵(lì)模型了。
10.說(shuō)一下 simpo 的原理,它是怎么解決 dpo 微調(diào)序列過(guò)長(zhǎng)的問(wèn)題的。
minimax
1.大模型算法中模型參數(shù)量每個(gè)部分有多少?
2.你了解哪些評(píng)估 minimax 大模型算法的手段?
3.如何評(píng)估 minimax 大模型算法中多模態(tài)模型的輸出質(zhì)量?
4.對(duì)于 minimax 大模型算法的數(shù)據(jù)集,如何提高質(zhì)量?如何利用 gpt 輔助提升數(shù)據(jù)集質(zhì)量?
5.有哪些方法可以提升 minimax 大模型算法中預(yù)訓(xùn)練模型的質(zhì)量?
全部評(píng)論
mark一下大佬
mark一下大佬
8.在 RLHF 中,寫出損失函數(shù)的表達(dá)式。 在紙上寫??
4.用 DeepSpeed 微調(diào)過(guò) Qwen2 - 72B,ZeRO - 1、ZeRO - 2、ZeRO - 3 三個(gè)模式的區(qū)別是什么?用 DeepSpeed ZeRO - 3 微調(diào) Qwen2 - 72B 時(shí),每一張卡占用顯存大概是多少?為什么?
這個(gè)問(wèn)題怎么答?。扛杏X(jué)一直都搞不懂
有難度的,感謝分享!
mark一下大佬
相關(guān)推薦
點(diǎn)贊 評(píng)論 收藏
分享