有點(diǎn)久遠(yuǎn)了,今天剛二面,總結(jié)下。非常喜歡的面試官(一面),很帥很專業(yè)很聰明很落地很……(此處省略100字)。二面的leader沒開攝像頭,never mind,我就是個(gè)渣渣,無所謂的。記錄下沒答上來的點(diǎn)吧,大伙湊活看1. Deepseek部署:很落地,但是具體細(xì)節(jié)忘記了,當(dāng)時(shí)沒及時(shí)記錄下來。這個(gè)很火,建議剛?cè)腴T的朋友可以多看看dpsk新技術(shù)。2. Treereduece:不知道,只知道ringreduce3. mooncake:新技術(shù),答到KTransformer(CPU+GPU異構(gòu)加速)的時(shí)候,面試官提到的4. EP dispatch combine5. Pd分離 Deepseek - dual pipline chunked prefill6. 多卡分布式訓(xùn)推7. GEMM和GEMV實(shí)現(xiàn)和優(yōu)化上的區(qū)別8. contiueous batching9. chunked batching10. Offloading:系統(tǒng)資源不夠用的時(shí)候,卸載用不到的kvcache,或者沒有被激活的專家等等11. GPU命中率場景:1. 分布式部署的時(shí)候怎么去解決io bound2. Deepseek- MoE 部署 EP TP 部署優(yōu)劣對比評價(jià):猜你沒有看過vllm源碼+對分布式了解還不夠,然后也說了分布式需要資源,這也是實(shí)習(xí)的意義 二面:1. 為什么會有KVcache?為什么沒有Q cache?(正好以前研究時(shí)候手撕過,設(shè)想一個(gè)你好的prompt,模型也回答你好,關(guān)鍵地方在于對于同樣一個(gè)token,kv embedding的時(shí)候是同樣的結(jié)果)2. Cuda除了gemm還做過哪些?(沒有)3. 學(xué)這些東西用了多久?(兩個(gè)月。。答長了,怕覺得我,學(xué)了這么久還這么垃圾。答短了,怕覺得我,才學(xué)這么點(diǎn)時(shí)間,垃圾。當(dāng)然,長還是短,看他咯)4. 以后啥安排?會定居北京嗎?(回答對象、父母安排,意向是留在北京,機(jī)會多些)提到租房,問我了解京東附近房價(jià)嗎?(閑聊)5. 叫我做好準(zhǔn)備,工作強(qiáng)度不低,弱弱的問了一句時(shí)間,大概是10-8,還行吧,和學(xué)習(xí)的時(shí)間比起來這都還好。6. 說我不夠底層,確實(shí)吧,還得學(xué)啊,路漫漫其修遠(yuǎn)兮,吾將上下而求索參考連接:為什么加速LLM推斷有KV Cache而沒有Q Cache? - 莫葉何竹的回答 - 知乎https://www.zhihu.com/question/653658936/answer/107469197025Mooncake (1): 在月之暗面做月餅,Kimi 以 KVCache 為中心的分離式推理架構(gòu) - ZHANG Mingxing的文章 - 知乎https://zhuanlan.zhihu.com/p/705754254講解的非常好,不是那么有基礎(chǔ)的同學(xué)都可以試著了解一下【KTransformers 團(tuán)隊(duì)分享異構(gòu)推理架構(gòu)思路:基于內(nèi)存的大模型推理成本優(yōu)化】 https://www.bilibili.com/video/BV1VNQrYGEad/?share_source=copy_web&vd_source=0b7a45021acc545f42356bf3b2bb7080