欧美1区2区3区激情无套,两个女人互添下身视频在线观看,久久av无码精品人妻系列,久久精品噜噜噜成人,末发育娇小性色xxxx

^{<blockquote id="ccg66"></blockquote>}

<cite id="ccg66"><track id="ccg66"></track></cite>

<legend id="ccg66"><track id="ccg66"></track></legend>

小白努力找好工作

05-01 23:12 門頭溝學(xué)院算法工程師發(fā)布于廣東

關(guān)注

NLP算法面經(jīng)16

10.17 螞蟻 NLP （2+1）
1. 項(xiàng)目+實(shí)習(xí)
2. 強(qiáng)化學(xué)習(xí)的發(fā)展歷程
3. 多頭注意力書寫
4. Lora的優(yōu)勢(shì)
5. 對(duì)話的掩碼方式，其次是整體計(jì)算？
6. deepspeed zero123區(qū)別，有沒有看過顯存占用
7. grpo比dpo和ppo優(yōu)勢(shì)在哪？
8. MLA相比GQA的優(yōu)勢(shì)？
9. Agent的看法？
10. 跨模態(tài)處理的有效方法？
11. Qwen2-VL的框架介紹？
#大模型# #算法# #互聯(lián)網(wǎng)大廠# 面經(jīng) #nlp# 螞蟻 #阿里# #互聯(lián)網(wǎng)大廠實(shí)習(xí)#

全部評(píng)論

推薦最新樓層

04-27 00:52

已編輯

清華大學(xué) C++

淘天大模型訓(xùn)練-暑期實(shí)習(xí)（可轉(zhuǎn)正）

團(tuán)隊(duì)致力于打造核心LLM算法能力和應(yīng)用技術(shù)，為了更好服務(wù)淘寶電商場(chǎng)景業(yè)務(wù)。如果你對(duì)LLM技術(shù)有思考和熱情，歡迎投簡(jiǎn)歷。你會(huì)接觸和探索最前沿的LLM技術(shù)，有豐富資源和強(qiáng)大基建支持。簡(jiǎn)歷投遞：https://huggingface.co/maidalun1020 職位描述： 1、探索模型結(jié)構(gòu)、數(shù)據(jù)和pretrain/continue pretrain 訓(xùn)練方式，對(duì)LLM基座電商領(lǐng)域注入知識(shí)，提升基座能力； 2、跟進(jìn)和探索最新的sft/RLHF技術(shù)，提升垂直場(chǎng)景效果，減少幻覺，增強(qiáng)推理能力； 3、探索新框架、數(shù)據(jù)構(gòu)造和訓(xùn)練方式，包括但不限RAG/agent框架，提升復(fù)雜問題解決能力； 職位要求： 1...

投遞淘天集團(tuán)等公司10個(gè)崗位 >

點(diǎn)贊評(píng)論收藏

分享

05-01 19:10

中山大學(xué) 算法工程師

為什么現(xiàn)在 LLM 很少使用 Dropout了？

翻遍各種大模型的實(shí)現(xiàn)，雖然結(jié)構(gòu)上可能保留了 dropout 的實(shí)現(xiàn)，但是采樣概率都設(shè)置為 0 了。唯一一個(gè)比較新的，還用 Dropout 的模型是 Meta 訓(xùn)練的 Galactica 模型。那為什么現(xiàn)在不用了呢？核心還是要弄清楚 Dropout 的使用場(chǎng)景。Dropout 之前在深度學(xué)習(xí)當(dāng)中是一個(gè)特別好用的方法，可以防止過擬合，提高泛化。所以說，當(dāng)模型較大，數(shù)據(jù)較少的時(shí)候，使用 Dropout 是比較合適的?，F(xiàn)在大模型處在什么狀態(tài)呢？?預(yù)訓(xùn)練在預(yù)訓(xùn)練階段，目前可能還是處于欠擬合的狀態(tài)。之所以說可能，是基于目前公開的一些論文的出的結(jié)論。但是現(xiàn)在閉源的公司在采用大量數(shù)據(jù)合成的情況下，已經(jīng)訓(xùn)練足夠充分或者接近充分也說不定。以 llama 一系列論文為例，訓(xùn)練 llama 1 的時(shí)候，龍貓 Scaling law 里面提到 GPT3 是一個(gè)訓(xùn)練很不充分的模型。然后給出的數(shù)據(jù)配比的建議是，10B 的模型要采用 200B 的 token 來訓(xùn)練。但是 llama 1 采用了 7B 的模型，訓(xùn)練量 1T 的 token 發(fā)現(xiàn)性能依然有提升。而且預(yù)訓(xùn)練所有的語料一般只過一個(gè) epoch，某些特定的領(lǐng)域可能過 2個(gè) epoch，可以認(rèn)為樣本的重復(fù)率很低。所以，在數(shù)據(jù)足夠多，多樣性足夠而且沒有太多重復(fù)的情況下，大模型在預(yù)訓(xùn)練階段仍然沒有過擬合的風(fēng)險(xiǎn)。也就完全不需要采用 dropout。?Dropout 就完全不需要了么？如果上面的條件不能滿足，Dropout 還是有用武之地的。比如前面提到的 Galactica 模型。這個(gè)模型和其他大模型不太一樣的地方是訓(xùn)練了 4.25 個(gè) epoch，因?yàn)樗麄冋J(rèn)為高質(zhì)量的數(shù)據(jù)更重要一些，但是又沒有那么多，所以就 repeat 數(shù)據(jù)了。在論文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》 中，詳細(xì)列舉了數(shù)據(jù) Repeat 對(duì)訓(xùn)練 LLM 的影響，并且證明了 Dropout 可以緩解數(shù)據(jù)重復(fù)帶來的性能損失。在文章《Can LLMs learn from a single example?》中，也提到了在 SFT 的時(shí)候，少量的重復(fù)數(shù)據(jù)就會(huì)降低模型的性能。這也符合常理，SFT 的數(shù)據(jù)分布和預(yù)訓(xùn)練的通常是不太一樣的，重復(fù)的數(shù)據(jù)會(huì)讓模型擬合新的分布，從而忘掉舊的分布。文中同樣也提到 Dropout 可以緩解數(shù)據(jù)重復(fù)帶來的影響。所以 Dropout 在數(shù)據(jù)量較少，多樣性不高，需要 repeat 的場(chǎng)景下，依然是一個(gè)減少過擬合的很方便的手段。比如現(xiàn)在已經(jīng)有一些在 LoRA 微調(diào)的時(shí)候采用 Dropout 的研究了。#算法# #簡(jiǎn)歷中的項(xiàng)目經(jīng)歷要怎么寫# #算法崗面試# #互聯(lián)網(wǎng)大廠招聘# #大模型# #大模型面經(jīng)#

簡(jiǎn)歷中的項(xiàng)目經(jīng)歷要怎么寫

點(diǎn)贊評(píng)論收藏

分享

04-25 09:26

中國(guó)科學(xué)院大學(xué) Java

阿里云一二面技術(shù)面分享

阿里云是我比較早的面經(jīng)了，我因?yàn)橛忻看螐?fù)盤的習(xí)慣，所以現(xiàn)在發(fā)出來問的問題比較中規(guī)中矩,是我投的早嗎？果然是先來先得。一面 50min 無手撕 聽朋友說好像筆試分高的一般面試官不手撕 1.自我介紹，我叫xxx 某xxx學(xué)校 哎 介紹了不知道多少遍了2.聊一下自己項(xiàng)目的組成 框架3.Redis 的線程模型是什么？你用的是單體還是分布式？4.jdk、json、hessian等序列化器有什么區(qū)別，為什么jdk的序列化結(jié)果大5.展開講講B+樹，解決了數(shù)據(jù)庫的什么問題，沒有B+樹之前怎么解決的，和原來的方法有什么區(qū)別6.java觸發(fā)垃圾回收的時(shí)機(jī)7.Java進(jìn)程cpu占用高，有什么排查思路(這個(gè)就是看一下...

阿里云二面100人在聊

查看20道真題和解析 java面筋八股大全

點(diǎn)贊評(píng)論收藏

分享

04-24 21:30

華南理工大學(xué) 語音識(shí)別

釘釘-語音智能-暑期一面

自我介紹介紹實(shí)習(xí)asr用的模型是自己訓(xùn)的還是用的別人的是不是非流式的有看過麥克風(fēng)的設(shè)計(jì)嗎有沒用到陣列的信息有沒做論文介紹項(xiàng)目聲音更準(zhǔn)還是振動(dòng)更準(zhǔn)振動(dòng)和聲音數(shù)據(jù)差異大嗎用的也是深度學(xué)習(xí)嗎發(fā)的論文是英文嗎介紹比賽最大工作量是什么實(shí)驗(yàn)室人多嗎老師的研究方向是什么反問#扒一扒那些奇葩實(shí)習(xí)經(jīng)歷##我的實(shí)習(xí)日記##語音技術(shù)崗##語音算法##語音算法實(shí)習(xí)##語音算法工程師實(shí)習(xí)##?？虯I配圖神器#

查看16道真題和解析扒一扒那些奇葩實(shí)習(xí)經(jīng)歷我的實(shí)習(xí)日記

點(diǎn)贊評(píng)論收藏

分享

05-09 14:12

運(yùn)營(yíng)

李想的6.39億年薪，憑什么？

李想拿了6.39億年薪，上熱搜了。然而相比起之前雷軍“疑似”成為首富時(shí)的贊賞，網(wǎng)友更多的是吐槽甚至嘲諷：“天天虧錢的車企，高管卻年年高薪”“銷售提成才1200”“我的理想年薪和李想年薪差不多”。一時(shí)間，吃瓜群眾將李想連同整個(gè)電動(dòng)車新勢(shì)力行業(yè)，一起拷打。這事兒，不只是錢的數(shù)字刺激人，更像是大眾情緒的錯(cuò)位釋放——為什么李想掙錢，有人會(huì)覺得不舒服？我認(rèn)真扒完財(cái)報(bào)、翻了新勢(shì)力們的近況，答案或許在這些真實(shí)的對(duì)比里。李想的6.39億，并不是白拿。這6.39億并不是直接從公司賬戶上打走6.39億現(xiàn)金。這筆錢里，99.6%是股權(quán)激勵(lì)，不是現(xiàn)金工資。具體拆開是：基本年薪：266.5萬元；期權(quán)激勵(lì)：6.36億元，...

點(diǎn)贊評(píng)論收藏

分享

評(píng)論

點(diǎn)贊

1

招聘動(dòng)態(tài)

招商金科

25屆+26屆校園招聘

完美世界

25屆春招&26屆實(shí)習(xí)生招聘

字節(jié)跳動(dòng)

25屆補(bǔ)錄&26屆實(shí)習(xí)

聯(lián)想

2026屆實(shí)習(xí)招聘

26屆實(shí)習(xí)軟件筆試必刷題單

26屆實(shí)習(xí)求職交流群

字節(jié)跳動(dòng)Tik Tok

26屆實(shí)習(xí)招聘

26屆投遞鏈接合集

快手

25屆補(bǔ)錄+26屆實(shí)習(xí)

聯(lián)想

25屆校招+26屆實(shí)習(xí)

全站熱榜

更多

創(chuàng)作者周榜

更多

正在熱議

更多

# 面試問題記錄 #

31129次瀏覽 506人參與

# 假如我穿越到了媽媽的18歲 #

1557次瀏覽 27人參與

35027次瀏覽 157人參與

# 入職第五天，你被拉進(jìn)了幾個(gè)工作群 #

14253次瀏覽 77人參與

# 面試經(jīng)驗(yàn)談 #

20257次瀏覽 319人參與

# 工作一周年分享 #

15218次瀏覽 101人參與

# 機(jī)械人，你的第一份感謝信是誰給的 #

23354次瀏覽 295人參與

# 對(duì)媽媽沒說出口的話 #

13196次瀏覽 329人參與

# 視覺/交互/設(shè)計(jì)招聘信息匯總 #

10802次瀏覽 596人參與

# 面試吐槽bot #

5146次瀏覽 50人參與

# 媽媽治愈了你哪些脆皮時(shí)刻 #

5709次瀏覽 107人參與

# 請(qǐng)用你的專業(yè)向媽媽表白 #

4062次瀏覽 44人參與

# 職場(chǎng)新人生存指南 #

338177次瀏覽 7243人參與

# 異地戀該為對(duì)方跳槽嗎 #

26841次瀏覽 130人參與

# 硬件人更看重穩(wěn)定還是高薪 #

41817次瀏覽 213人參與

# 上班苦還是上學(xué)苦呢？ #

214885次瀏覽 1288人參與

# 機(jī)械求職避坑tips #

42425次瀏覽 356人參與

# 硬件人秋招的第一個(gè)offer #

67006次瀏覽 1082人參與

# 零跑求職進(jìn)展匯總 #

2040次瀏覽 16人參與

# 不考慮轉(zhuǎn)正，實(shí)習(xí)多久合適 #

25670次瀏覽 119人參與

# 租房找室友 #

30158次瀏覽 150人參與

?？途W(wǎng)
牛客企業(yè)服務(wù)

<sup id="m9xo3"><rt id="m9xo3"><form id="m9xo3"></form></rt></sup><sub id="m9xo3"></sub>

<cite id="m9xo3"><track id="m9xo3"></track></cite>