欧美1区2区3区激情无套,两个女人互添下身视频在线观看,久久av无码精品人妻系列,久久精品噜噜噜成人,末发育娇小性色xxxx

算法打工人阿旺 level
獲贊
32
粉絲
32
關(guān)注
0
看過(guò) TA
196
中山大學(xué)
2026
算法工程師
IP屬地:山東
阿里高級(jí)算法工程師,多模態(tài)/大模型/搜廣推方向輔導(dǎo)
私信
關(guān)注
今天老師結(jié)合輔導(dǎo)經(jīng)驗(yàn),分享一些豐富項(xiàng)目經(jīng)歷的方法,供各位同學(xué)參考學(xué)習(xí)。?關(guān)于怎么找項(xiàng)目這個(gè)問(wèn)題,其實(shí)來(lái)源可以是很多的,比如數(shù)據(jù)競(jìng)賽: Kaggle 、百度 AlStudio 、阿里天池等?Github 高 Star 項(xiàng)目?項(xiàng)目輔導(dǎo):在輔導(dǎo)中老師會(huì)帶各位同學(xué)接觸實(shí)際大廠的高級(jí)別項(xiàng)目,能夠滿足技術(shù)棧和大廠契合,有應(yīng)用場(chǎng)景,有可以發(fā)布論文的創(chuàng)新點(diǎn)或者能解決業(yè)務(wù)問(wèn)題的整體Pipeline,并且有明確的優(yōu)化思路(比如版本迭代)。也很重要的是??你能否把你的項(xiàng)目完整且精彩的寫在簡(jiǎn)歷上并且講述給你的面試官聽(tīng)。??過(guò)程分為三步:1??明確想做的任務(wù)和方法:任務(wù):拿 NLP 舉例,主要分為四大任務(wù):分類任務(wù)、生成任務(wù)、序列標(biāo)注、句子關(guān)系判斷方法:主流方法 or 前沿方法。還是拿 NLP 舉例,主流方法可以是 BERT ,前沿方法當(dāng)然就是大模型微調(diào)啦2??找到相關(guān)代碼+多迭代明確任務(wù)和方法之后,就可以找找 Github 先跑通一個(gè) Version 1了。接下來(lái)比較關(guān)鍵的一步就是如何優(yōu)化你的 Version 1了。比如你可以從數(shù)據(jù)預(yù)處理、加入小 trick 、對(duì)比不同模型性能等多種角度來(lái)以此嘗試,試圖能否提升性能與效果。其實(shí)這就是面試官想看到的,因?yàn)榇蠹铱梢韵胂牖ヂ?lián)網(wǎng)的一個(gè)最重要的特點(diǎn)不就是飛速的迭代嘛,很多的算法崗業(yè)務(wù)也是如此:要不就是開(kāi)辟新業(yè)務(wù),要不就是用新方法重新做一遍舊業(yè)務(wù),一旦優(yōu)化成功了,你的新模型就成功上線了。3??寫好故事+講好故事簡(jiǎn)歷書(shū)寫(這一篇筆記先不具體展開(kāi)了),但大致可以按照下面一部分的幾個(gè)角度來(lái)切入講好故事:面試前提前準(zhǔn)備好下面幾個(gè)問(wèn)題,數(shù)據(jù)是什么,方法是什么(對(duì)應(yīng)八股要準(zhǔn)備好),項(xiàng)目的目的是什么﹣﹣?zhàn)屆嬖嚬儆袀€(gè)總體了解是怎么迭代算法與模型的,性能對(duì)比情況如何﹣﹣體現(xiàn)你的工程能力與優(yōu)化能力,遇到過(guò)什么困難,是如何解決的﹣﹣提升真實(shí)性,讓面試官直觀的感受到你是自己做的,還有什么改進(jìn)空間﹣﹣體現(xiàn)你的思考與沉淀。??如果想進(jìn)行更加詳細(xì)具體的項(xiàng)目輔導(dǎo),提升面試能力,歡迎后臺(tái)聯(lián)系。#算法# #簡(jiǎn)歷中的項(xiàng)目經(jīng)歷要怎么寫#
0 點(diǎn)贊 評(píng)論 收藏
分享
今天老師給大家梳理了部分大廠搜廣推算法崗面試真題,供各位同學(xué)參考學(xué)習(xí)。1.PPNet的核心思想是什么?為什么要 stop gradient ?什么時(shí)候不需要這樣操作?2.多目標(biāo)模型很容易遇到蹺蹺板問(wèn)題或者兩個(gè) loss 數(shù)量級(jí)相差很大,優(yōu)化速度差異太大,你知道有什么優(yōu)化方法嗎?3.NEG loss 和 NCE loss 有什么區(qū)別? infonce loss 公式是什么4.召回業(yè)務(wù)一般怎么定義負(fù)樣本? bce loss 的公式是什么?簡(jiǎn)述一下 Pointwise , pairwise 和 listwise 的區(qū)別是什么?召回一般用什么 loss ?5.粗排的作用?怎么驗(yàn)證粗排精排的鏈路一致性?用什么指標(biāo)可以衡量鏈路一致性?6.大模型了解嗎?怎么在推薦中應(yīng)用?比如怎么在召回中用?大模型訓(xùn)練分成哪幾個(gè)階段?簡(jiǎn)述一下各個(gè)階段在干什么7.千萬(wàn)級(jí)別的整型數(shù)組,怎么獲取其中出現(xiàn)次數(shù)最多的前 N 個(gè)數(shù)?(考數(shù)據(jù)結(jié)構(gòu))8.講一下你知道的機(jī)器學(xué)習(xí)里面的算法,比如 AdaBoost , GBDT , XGBoost 這些。 Bagging 和 Boosting 的區(qū)別?隨機(jī)森林是什么9.講一下Word2vec是怎么做的?怎么降低計(jì)算復(fù)雜度?10.你知道的中心極限定理有哪些?11.雙塔模型優(yōu)勢(shì)和缺點(diǎn),怎么改進(jìn)?12.粗排的目的是什么?有哪些指標(biāo),粗排應(yīng)該向精排看齊嗎?13.說(shuō)一下 BN 的公式,哪幾個(gè)參數(shù)是在訓(xùn)練時(shí)更新,在推理時(shí)還更新嗎?簡(jiǎn)述一下測(cè)試過(guò)程中的 BN 怎么算。 BN 和 LN 的區(qū)別?14.當(dāng)神經(jīng)網(wǎng)絡(luò)的權(quán)重初始化為0時(shí),會(huì)遇到什么問(wèn)題?15.你能抽象地歸納出序列建模發(fā)展的脈絡(luò)嗎?以及它的最終形態(tài)應(yīng)該是什么樣子???對(duì)于想求職算法崗的同學(xué),如果想?yún)⒓痈哔|(zhì)量項(xiàng)目輔導(dǎo),提升面試能力,歡迎后臺(tái)聯(lián)系。
查看15道真題和解析
0 點(diǎn)贊 評(píng)論 收藏
分享
??搜廣推和大模型算法是目前比較熱門的兩個(gè)算法方向,對(duì)于想從事算法的同學(xué)無(wú)疑是需要面臨的選擇,尤其是研0或者研1的同學(xué),提前確定方向就可以少走彎路,直達(dá)目標(biāo)。今天給大家分析一下這兩類崗位的優(yōu)劣勢(shì)對(duì)以及適合什么樣的同學(xué)投遞。1??搜廣推:優(yōu)勢(shì)是hc多,互聯(lián)網(wǎng)公司核心業(yè)務(wù)有關(guān)聯(lián),更容易進(jìn)互聯(lián)網(wǎng)大廠,劣勢(shì)是入職后業(yè)務(wù)壓力大。2??大模型:優(yōu)勢(shì)是工作上業(yè)務(wù)壓力相對(duì)搜廣推小一些,而且可以投遞的面更廣(從中大互聯(lián)網(wǎng)公司到獨(dú)角獸,創(chuàng)業(yè)公司甚至國(guó)企/金融科技公司都有需求),包括LLM/多模態(tài)/AIGC等方向,劣勢(shì)是進(jìn)互聯(lián)網(wǎng)大廠難度比搜廣推高一些。3??薪資方面平均水平差不多,但是大模型SP薪資會(huì)略高于搜廣推。??如何匹配自己:首先看興趣,其次是對(duì)壓力的接受程度。如果對(duì)壓力接受能力強(qiáng),并且想進(jìn)互聯(lián)網(wǎng)中大廠可以選擇搜廣推。如果反之,希望工作業(yè)務(wù)壓力不要太大,并且也可以考慮國(guó)企等選擇,大模型會(huì)更加適合。??無(wú)論是哪個(gè)方向,都是目前的熱門方向,競(jìng)爭(zhēng)也都比較激烈,需要簡(jiǎn)歷上有對(duì)口且高質(zhì)量的項(xiàng)目經(jīng)歷。如果需要補(bǔ)充對(duì)應(yīng)的經(jīng)歷,去拿實(shí)習(xí)或者正式offer,歡迎后臺(tái)咨詢。#算法# #互聯(lián)網(wǎng)大廠招聘# #算法崗面試#
0 點(diǎn)贊 評(píng)論 收藏
分享
0 點(diǎn)贊 評(píng)論 收藏
分享
#算法# 一個(gè)完美的算法簡(jiǎn)歷內(nèi)容包括:對(duì)口項(xiàng)目,大廠實(shí)習(xí)經(jīng)歷,高質(zhì)量論文。想拿大廠算法 offer 滿足以上其中兩條就差不多。①對(duì)口項(xiàng)目:業(yè)務(wù)部門正在做的項(xiàng)目所需要的技術(shù)或者經(jīng)歷,有相關(guān)經(jīng)歷的同學(xué)會(huì)容易拿到 offer 。除此之外,對(duì)口項(xiàng)目要有一定深度,如果單純復(fù)現(xiàn) github 代碼意義不大,至少是能解決業(yè)務(wù)問(wèn)題以及有深入思考的項(xiàng)目。大部分簡(jiǎn)歷的項(xiàng)目其實(shí)沒(méi)有競(jìng)爭(zhēng)力。②大廠實(shí)習(xí)經(jīng)歷:簡(jiǎn)歷上有實(shí)習(xí)經(jīng)歷,是加分項(xiàng),雖然很多實(shí)習(xí)工作都接觸不到核心業(yè)務(wù),但是在公司工作的過(guò)程養(yǎng)成的習(xí)慣以及積累的認(rèn)識(shí)還是有用的。③高質(zhì)量論文: CCF A 和部分 CCF B 的論文認(rèn)可度比較高,能有1-2篇對(duì)口的論文就足夠了。有部分同學(xué)有論文但是拿不到 offer ,原因是論文方向太窄了,不是公司需要的方向??偨Y(jié):校招的同學(xué)滿足三條中的兩條,大廠算法 offer 基本比較穩(wěn)。社招的同學(xué)第一條要滿足才有希望。
投遞美的集團(tuán)等公司7個(gè)崗位
0 點(diǎn)贊 評(píng)論 收藏
分享
想要進(jìn)入互聯(lián)網(wǎng)行業(yè),從事高薪算法工作的朋友,如何走捷徑,拿到算法 offer ???自我介紹:我是轉(zhuǎn)行進(jìn)入算法行業(yè),沒(méi)有專業(yè)經(jīng)歷,但現(xiàn)已入職大廠,并且實(shí)現(xiàn)薪資大幅提升。??彎道超車:剛開(kāi)始轉(zhuǎn)行缺乏具體規(guī)劃的時(shí)候,找了來(lái)自阿里,字節(jié),騰訊等一線互聯(lián)網(wǎng)大廠的在職算法工程師團(tuán)隊(duì)進(jìn)行輔導(dǎo),針對(duì)當(dāng)前熱門的算法就業(yè)方向,老師帶著做大廠的算法項(xiàng)目,注重實(shí)踐能力和面試能力的提升。??項(xiàng)目方向(熱門方向):1??AIGC圖像生成2??多模態(tài)大模型3??大語(yǔ)言模型4??搜索,廣告,推薦5??自動(dòng)駕駛我選擇了1??AIGC圖像生成和2??多模態(tài)大模型兩個(gè)方向。??項(xiàng)目輔導(dǎo)流程:形式是1V1上課+課后實(shí)踐+答疑。具體包括:理解項(xiàng)目流程,實(shí)踐項(xiàng)目代碼,學(xué)習(xí)方法原理,梳理面試問(wèn)題,修改簡(jiǎn)歷,提供虛擬面試等內(nèi)容。??時(shí)間:老師會(huì)根據(jù)我的時(shí)間靈活安排課程,整個(gè)輔導(dǎo)我花了2個(gè)月左右,但后續(xù)也會(huì)因?yàn)楦鞣N瑣事叨擾他們,他們是我在大廠的第一份人脈,哈哈????成果:最終我的簡(jiǎn)歷上增加了兩個(gè)高質(zhì)量的項(xiàng)目,相當(dāng)于我的實(shí)習(xí)經(jīng)歷,并且有了這兩個(gè)項(xiàng)目做基礎(chǔ),我的簡(jiǎn)歷提升和面試過(guò)程就輕松了些,現(xiàn)在已經(jīng)成功上岸!
0 點(diǎn)贊 評(píng)論 收藏
分享
?一面1??深挖多模態(tài)論文2??介紹transformer架構(gòu)3??詳細(xì)說(shuō)一下Decoder的因果注意力 QKV分別來(lái)自哪4??Attention為什么要做scaled 不做會(huì)怎么樣 為什么用根號(hào)d_k5??Transformer怎么做加速訓(xùn)練(KV緩存) 訓(xùn)練和推理有什么區(qū)別(并行化)6??深挖多模態(tài)大模型論文用的video-llama 講一下大模型的結(jié)構(gòu)7??論文用了CoT講一下論文的CoT是怎么樣的8??微調(diào)用的LoRA介紹一下LoRA9??LoRA初始化怎么做的,用的秩是多少,為什么不選其他的數(shù)1??0??知道deepspeed和megatron嗎?分別介紹一下1??1??論文用的deepspeed詳細(xì)講了一下三個(gè)stage分別是什么?二面1??深挖多模態(tài)和大模型的論文2??Decoder文本生成有哪幾種方法3??還知道哪些多模態(tài)大模型4??介紹一下ALBEF、BLIP5??BLIP2的結(jié)構(gòu)是什么  兩階段怎么訓(xùn)練的 有哪些損失6??知道PEFT嗎 講一下LoRA7??還有什么微調(diào)方法 -> prefix-tuning和P-tuning 兩者分別是怎么做的 為了解決什么提出的8??后面就是一些場(chǎng)景題?三面1??深挖論文2??講一下multi-head attention 用pytorch手撕一下 要可以實(shí)現(xiàn)cross attention的3??講一下你用的大模型是什么結(jié)構(gòu) 特征是怎么喂給大模型的4??大模型訓(xùn)練為什么不用SFT5??LoRA是什么?有什么好處6??知道RLHF嗎?講一下訓(xùn)練流程7??接下來(lái)就是好幾個(gè)場(chǎng)景題,電商相關(guān)的,用大模型解決prompt應(yīng)該怎么設(shè)計(jì),怎么處理prompt的輸出,怎么過(guò)濾錯(cuò)誤格式的輸出??對(duì)于想求職算法崗的同學(xué),如果想?yún)⒓痈哔|(zhì)量項(xiàng)目輔導(dǎo),提升面試能力,歡迎后臺(tái)聯(lián)系。
0 點(diǎn)贊 評(píng)論 收藏
分享
?一面對(duì)著項(xiàng)目問(wèn)的比較多1??線性回歸的假設(shè)條件是什么2??介紹lstm,transformer這些3??transformer 相比于 seq2seq,它的增量點(diǎn)在什么地方4??因果推斷和(事件發(fā)生前擬合一個(gè)模型,使用這個(gè)模型對(duì)事件發(fā)生后進(jìn)行預(yù)測(cè)從而得到效應(yīng)),增量在什么地方,有哪些本質(zhì)上的區(qū)別(跟我的項(xiàng)目相關(guān))5??對(duì)于銷量預(yù)測(cè)模型,你有什么思路;怎么進(jìn)行模型選型;如果沒(méi)有其他特征,只有按時(shí)間變化的銷量,可以怎么預(yù)測(cè)?6??一個(gè)人投籃的命中率是60%,是投10次至少命中7次的概率大,還是投100次至少命中70次的概率大(大數(shù)定律)7??手撕:兩個(gè)橢圓x^2+y^2/2=1,x^2/2+y^2=1,求這兩個(gè)橢圓相交部分的面積(蒙特卡洛模擬,好像還可以使用極坐標(biāo)直接求解,忘了)比較注重?cái)?shù)理(可能也是因?yàn)槲沂菙?shù)理出身)?二面1??50個(gè)黑球和50個(gè)白球,分別放進(jìn)兩個(gè)框,怎么放置,可以讓一個(gè)人拿到白球的概率最大2??一個(gè)細(xì)胞的生命有三個(gè)小時(shí),每個(gè)小時(shí)都會(huì)分裂一次,到T時(shí)刻會(huì)有多少細(xì)胞呢?3??希望在算法崗從事什么樣子的工作?4??技術(shù)棧有哪些?5??是否了解大模型?6??大模型災(zāi)難遺忘怎么解決7??是否了解微調(diào)、量化?8??大模型應(yīng)用場(chǎng)景是什么?9??Pytorch 算法框架是否熟悉??三面1??問(wèn)對(duì)深度學(xué)習(xí)那塊比較熟,回答時(shí)序預(yù)測(cè),問(wèn)有無(wú)讀過(guò)現(xiàn)在的SOAT方法,回答無(wú)(沒(méi)讀過(guò)啥paper)2??什么樣的embedding是好的embeding,怎么評(píng)估3??選擇unieval模型是怎么做的模型選型4??拿到一個(gè)新方向是怎么調(diào)研的,怎么去找論文的5??介紹 transformer,每個(gè)encoder的結(jié)構(gòu)是什么6??介紹 self-attention7??怎么理解q,k,v8??可以使用同一個(gè)W_q和W_k嗎9??為什么q×k之后要scale,d 是什么1??0??時(shí)空?qǐng)D(論文,但是別人做的這part,自己不太了解了)1??1??手撕:打家劫舍(偏重對(duì)算法的理解,和項(xiàng)目實(shí)現(xiàn)上的一些細(xì)節(jié))??對(duì)于想求職算法崗的同學(xué),如果想?yún)⒓痈哔|(zhì)量項(xiàng)目輔導(dǎo),提升面試能力,歡迎后臺(tái)聯(lián)系。#算法#
滴滴三面214人在聊 查看27道真題和解析
0 點(diǎn)贊 評(píng)論 收藏
分享
?一面1??時(shí)間:1h+自我介紹2??項(xiàng)目介紹:問(wèn)的很細(xì),過(guò)程中不停打斷提問(wèn)算法競(jìng)賽項(xiàng)目,整體數(shù)據(jù)處理流程、模型效果評(píng)估方法、心得體會(huì)3??八股:簡(jiǎn)單介紹一下 BERT 和 TransformerAttention 和 self-attention 有什么區(qū)別?4??Transformer 的復(fù)雜度Bert 用的什么位置編碼,為什么要用正弦余弦來(lái)做位置編碼?還知道其他哪些位置編碼?5??除了 bert 還做過(guò)哪些模型的微調(diào)?為什么現(xiàn)在的大模型大多是 decoder-only 的架構(gòu)?6??講一下生成式語(yǔ)言模型的工作機(jī)理用過(guò) LoRA 嗎?講一下原理?7??算法題最大子段和跳臺(tái)階其他問(wèn)后續(xù)安排和實(shí)習(xí)時(shí)長(zhǎng),以及反問(wèn)?二面1??自我介紹2??項(xiàng)目:深挖八股Transformer 結(jié)構(gòu)和 LSTM 的區(qū)別和優(yōu)勢(shì),Transformer 怎么體現(xiàn)時(shí)序信息?3??Transformer Encoder 和 Decoder 的輸入輸出和結(jié)構(gòu)BatchNorm 更多用在視覺(jué)上,LayerNorm 更多用在語(yǔ)言上,為什么有沒(méi) chatGLM,LLaMA 等部署、微調(diào)經(jīng)歷?4??有沒(méi)有了解過(guò)大模型加速推理?5??講一下 Flash Attention?6??算法題先說(shuō)思路再寫代碼1、數(shù)組中的第K個(gè)最大元素2、數(shù)組 nums 表示若干個(gè)區(qū)間的集合,請(qǐng)你合并所有重疊的區(qū)間,并返回一個(gè)不重疊的區(qū)間數(shù)組,該數(shù)組需恰好覆蓋輸入中的所有區(qū)間。輸入: nums =[[1,3],[2,6],[8,10],[15,18]]輸出:[[1,6],[8,10],[15,18]]??對(duì)于想求職算法崗的同學(xué),如果想?yún)⒓痈哔|(zhì)量項(xiàng)目輔導(dǎo),提升面試能力,歡迎后臺(tái)聯(lián)系。
查看20道真題和解析
0 點(diǎn)贊 評(píng)論 收藏
分享
今天老師為大家整理了部分推薦算法面試經(jīng)驗(yàn)。供各位同學(xué)參考。?一面1??首先是做自我介紹,這個(gè)可以提前準(zhǔn)備一下介紹簡(jiǎn)歷中寫的論文2??問(wèn)做的東西在工業(yè)界有沒(méi)有一些應(yīng)用場(chǎng)景,可以發(fā)散的聊一聊問(wèn)了下之前實(shí)習(xí)主要是做些什么,有什么收獲或者感想召回常用的一些方法3??FM,DCN等推薦相關(guān)的知識(shí)寫代碼,一道工程模擬題,實(shí)現(xiàn)一個(gè)類和三個(gè)函數(shù),分析時(shí)間空間復(fù)雜度,然后優(yōu)化提問(wèn)環(huán)節(jié)?二面1??自我介紹完做了二十分鐘的產(chǎn)品調(diào)研2??聊一聊推薦系統(tǒng)知識(shí),對(duì)推薦系統(tǒng)的掌握程度。如實(shí)說(shuō)了,在學(xué)校沒(méi)有做過(guò)推薦相關(guān)的項(xiàng)目3??讓我介紹了下常見(jiàn)的算法模型,協(xié)同過(guò)濾、矩陣分解,F(xiàn)M,DCN的原理以及優(yōu)缺點(diǎn)4??問(wèn)了一下Wide&Deep模型的原理5??推薦系統(tǒng)怎么做新用戶冷啟動(dòng)推薦系統(tǒng)中的一些帶bias的場(chǎng)景6??怎么debias寫一道代碼題,三角形中最小路徑之和提問(wèn)環(huán)節(jié)?三面1??自我介紹以及介紹論文推薦系統(tǒng)中debias的方法,比較開(kāi)放性的討論2??多任務(wù)學(xué)習(xí)中推薦系統(tǒng)中的應(yīng)用給了一個(gè)場(chǎng)景,讓設(shè)計(jì)一個(gè)推薦系統(tǒng)架構(gòu),然后分析存在哪些問(wèn)題。3??多任務(wù)學(xué)習(xí)的參數(shù)共享及不共享參數(shù)各自的優(yōu)缺點(diǎn),然后從這兩個(gè)角度分別去設(shè)計(jì)模型,包含特征交叉,embedding之類的。4??一道代碼題,只寫出了最簡(jiǎn)單版本,分析時(shí)空復(fù)雜度,然后有優(yōu)化的思路,代碼沒(méi)寫出來(lái),結(jié)束了看了下是leetcode hard題。5??提問(wèn)環(huán)節(jié)HRBP面問(wèn)了對(duì)推薦這個(gè)崗位的了解,以及為什么選擇推薦??對(duì)于想求職算法崗的同學(xué),***************************
查看19道真題和解析
0 點(diǎn)贊 評(píng)論 收藏
分享
面試官:目前有哪些post-training方法今天老師給大家詳細(xì)分析一道大廠算法面試真題:目前有哪些post-training方法,供各位同學(xué)參考。?回答:當(dāng)前主流的后訓(xùn)練方法包括監(jiān)督微調(diào)、基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)、直接偏好優(yōu)化(DPO)、專家迭代(EI)以及它們的變體(例如:RLAIF、PPO、ORPO、)。然而,后訓(xùn)練方法在LLM部署之前增加了一個(gè)相當(dāng)復(fù)雜的過(guò)程。???詳解:1??基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF): 基于人類反饋的強(qiáng)化學(xué)習(xí)是一種將人類偏好和意見(jiàn)引入強(qiáng)化學(xué)習(xí)過(guò)程中的方法。RLHF將人類的反饋?zhàn)鳛楠?jiǎng)勵(lì)信號(hào)來(lái)指導(dǎo)模型學(xué)習(xí)。人類可以通過(guò)提供對(duì)模型行為的偏好、反饋或排序,幫助模型更好地調(diào)整策略來(lái)適應(yīng)人類的偏好,就是更懂你。2??直接偏好優(yōu)化(DPO): 直接偏好優(yōu)化是一種優(yōu)化技術(shù),主要通過(guò)直接學(xué)習(xí)模型在不同情境下對(duì)不同偏好的評(píng)估,來(lái)提高模型的性能。注意,它是直接優(yōu)化偏好,在本質(zhì)上其是通過(guò)排序的思想構(gòu)造了一個(gè)優(yōu)化函數(shù),然后推導(dǎo)為最后可直接優(yōu)化的損失,比起來(lái)RLHF的思想它更簡(jiǎn)單,大體就是改個(gè)損失就可以了。3??專家迭代(EI): 專家迭代是一種通過(guò)模仿專家行為并不斷迭代改進(jìn)模型的方法。在專家迭代過(guò)程中,模型首先通過(guò)觀察專家的行為來(lái)學(xué)習(xí)。然后,通過(guò)模擬和優(yōu)化這些行為,模型根據(jù)專家的反饋或策略進(jìn)行改進(jìn)。這個(gè)我沒(méi)有用到過(guò),只能說(shuō)個(gè)大概。??對(duì)于想求職算法崗的同學(xué),如果想?yún)⒓痈哔|(zhì)量項(xiàng)目輔導(dǎo),提升面試能力,歡迎后臺(tái)聯(lián)系。
0 點(diǎn)贊 評(píng)論 收藏
分享

創(chuàng)作者周榜

更多
關(guān)注他的用戶也關(guān)注了:
牛客網(wǎng)
??推髽I(yè)服務(wù)