欧美1区2区3区激情无套,两个女人互添下身视频在线观看,久久av无码精品人妻系列,久久精品噜噜噜成人,末发育娇小性色xxxx

大模型學(xué)習(xí)第三期(都給我來(lái)看?。。?/h1>

小白怎么用?

先下載ollama這種模型工具(Hugging face的Gradio也可以實(shí)現(xiàn)可視化,可視化可以不要),然后去下載ollama的模型,

還有對(duì)應(yīng)ollama的模型,這里我花了一整天測(cè)試模型與數(shù)據(jù)集不適配的情況,嘗試用hugging face的transformor接口去調(diào)用ollama的模型,完全不行,然后不要嘗試調(diào)模型到適配數(shù)據(jù)集,你會(huì)發(fā)現(xiàn)調(diào)試完系統(tǒng)也不認(rèn)識(shí)你,因?yàn)檎{(diào)用的時(shí)候會(huì)訪問云端接口,所以修正模型大概率無(wú)法成功,所以只能去修改你對(duì)應(yīng)的數(shù)據(jù)集,去適配你ollama的模型,然后你下載的大概率會(huì)是基礎(chǔ)模型,類似qwen,gemini這種,這個(gè)偏差值和丟失率很高,一樣的數(shù)據(jù)集在精度很高的垂直模型跑出來(lái)丟失率差太多。

好像很高級(jí)的知識(shí)蒸餾是什么?

知識(shí)蒸餾:和較大模型是數(shù)據(jù)去喂給小模型這個(gè)本質(zhì)上應(yīng)該是數(shù)據(jù)遷移,在大型模型中完成剪枝,量化和壓縮等各種之后去遷移到小模型上面,這樣小模型可以通過不斷更新檢測(cè)調(diào)取優(yōu)化實(shí)現(xiàn)上面大模型的效果,現(xiàn)在說的老師教學(xué)學(xué)生這個(gè)比喻應(yīng)該是不恰當(dāng)?shù)摹?/strong>

Embedding請(qǐng)問是什么?

就是說把符號(hào)轉(zhuǎn)化為向量在我們模型之中要認(rèn)識(shí)他就必須放到向量模型里面,可以去調(diào)整維度,這方面是基礎(chǔ),同時(shí)你這里會(huì)涉及到概率論的東西,具體的我這里不細(xì)講,里面大概會(huì)有矩陣重組,分解,梯度轉(zhuǎn)換等知識(shí),可以不用管,這個(gè)時(shí)代初級(jí)程序員會(huì)被ai替代,就算你一行代碼都看不懂也可以做出好看的網(wǎng)頁(yè)和一些小demo,然后就算要不要用,按我說這玩意最好用,你的模型會(huì)得到極大的提升。

模型優(yōu)化前的一般步驟:

增量預(yù)訓(xùn)練(PT):在預(yù)訓(xùn)練模型上拿一些數(shù)據(jù)區(qū)訓(xùn)練設(shè)計(jì)策略和還有測(cè)評(píng)通用能力,實(shí)際上就是預(yù)加載(把模型那過來(lái)之后試他一下),在正常訓(xùn)練中作為第一步。

有監(jiān)督微調(diào)(SFT)和無(wú)監(jiān)督微調(diào)(NFT):

這個(gè)SFT就是在預(yù)訓(xùn)練模型上面給標(biāo)注好的數(shù)據(jù),實(shí)現(xiàn)精度垂直,而NFT就是隨便給些數(shù)據(jù),通過自監(jiān)督學(xué)習(xí)類似java的泛型自適應(yīng)。

訓(xùn)練集和測(cè)試集:訓(xùn)練集就是拿來(lái)練的,然后測(cè)試集就是拿來(lái)最后測(cè)試用的,在分開后能大幅降低過擬合。同時(shí)能防止數(shù)據(jù)泄露和評(píng)判這個(gè)模型在相同的數(shù)據(jù)劃分之下保證公平。

在進(jìn)行微調(diào)之后就初步成型。

然后采取強(qiáng)化訓(xùn)練。

模型微調(diào):

參數(shù)高效微調(diào)(PEFT):調(diào)試小部分參數(shù)(可添加小部分或者凍結(jié)大部分)保持全參數(shù)性能,

有LoRA(可添加訓(xùn)練矩陣,可減少90%作用參數(shù)當(dāng)下的LLM還有擴(kuò)散模型使用的較多(擴(kuò)散模型暫時(shí)不講,由淺入深)),Adapter Tuning(AT),Prompt Tuning,等方法。

高效微調(diào)(EFT):

混合精度訓(xùn)練,梯度累積(多個(gè)小批次然后前向傳播在不斷增加批次),知識(shí)蒸餾,分布式訓(xùn)練(多GPU或者分層次訓(xùn)練,可以去學(xué)習(xí)并聯(lián)機(jī)房或者網(wǎng)吧電腦實(shí)現(xiàn)分布式訓(xùn)練,理論上十幾臺(tái)機(jī)房電腦可以實(shí)現(xiàn)較好的訓(xùn)練(要看你們機(jī)房配置如何,同時(shí)機(jī)房會(huì)自動(dòng)更新,這個(gè)要注意處理)),量化訓(xùn)練(QAT):就是模擬低精度去適應(yīng)量化誤差。

至于你要怎么選用那種微調(diào)的,這個(gè)問ai,配置每個(gè)人都不一樣,而且兩種方法同時(shí)用很正常,例如LoRA+梯度累計(jì),然后設(shè)置。。。

模型優(yōu)化:

RLHF強(qiáng)化監(jiān)督學(xué)習(xí):在上述微調(diào)訓(xùn)練之后才能用,本質(zhì)上是人類設(shè)置的,對(duì)于模型而言就是設(shè)置PPO等算法給出不斷提升評(píng)分迭代。然后一般都是在訓(xùn)練完一次之后才開始,如果給出錯(cuò)誤那么等于這次訓(xùn)練時(shí)間浪費(fèi)了。盡量把這個(gè)活給其他人做。

DPO(偏好訓(xùn)練):我們的DPO可以視為上面RLHF的簡(jiǎn)單輕量化實(shí)現(xiàn),但是RLHF是訓(xùn)練獎(jiǎng)勵(lì)模型,然后再去訓(xùn)練,而DPO則是直接開始訓(xùn)練,其本質(zhì)上不一樣。在DPO內(nèi)涉及到大量prompt提示去快速迭代,相較于RLHF用更少的資源換取更高的效率同時(shí)會(huì)因?yàn)闆]有獎(jiǎng)勵(lì)模型而損失精度。這個(gè)現(xiàn)在并不能完全替代RLHF,后期估計(jì)會(huì)有能替代的思路。

ORPO(機(jī)率比偏好優(yōu)化):優(yōu)化機(jī)率比,這個(gè)東西是涉及底層算法,可以作為DPO的垂直專門替代(類似精準(zhǔn)的醫(yī)療客服)

GRPO(分組相對(duì)偏好優(yōu)化):等于DPO加上分組進(jìn)行訓(xùn)練,可以配合搜廣推等算法實(shí)現(xiàn)精準(zhǔn)到年齡,性別喜好獲取其喜歡的回答

#??图?lì)計(jì)劃#
全部評(píng)論

相關(guān)推薦

評(píng)論
1
4
分享

創(chuàng)作者周榜

更多
??途W(wǎng)
??推髽I(yè)服務(wù)