深圳剛剛發(fā)布人才大禮包,就傳來好消息!
12月17日,騰訊升級(jí)大模型研發(fā)架構(gòu),新成立AI Infra部、AI Data部、數(shù)據(jù)計(jì)算平臺(tái)部,全面強(qiáng)化其大模型的研發(fā)體系與核心能力。Vinces Yao出任“CEO/總裁辦公室”首席AI科學(xué)家,向騰訊總裁劉熾平匯報(bào);同時(shí)兼任AI Infra部、大語言模型部負(fù)責(zé)人,向技術(shù)工程事業(yè)群總裁盧山匯報(bào)。盡管內(nèi)部信息并未公布其中文姓名,但媒體從多個(gè)信源處獲悉,其為今年9月傳言加入騰訊的前OpenAI研究科學(xué)家、AI領(lǐng)域頂尖人才姚順雨。
深圳夢(mèng)注意到,12月16日,深圳發(fā)布《關(guān)于加強(qiáng)青年人才來深發(fā)展服務(wù)保障的若干措施》(以下簡(jiǎn)稱《若干措施》),由市人力資源和社會(huì)保障局等部門出臺(tái)人才認(rèn)定、住房保障和創(chuàng)業(yè)空間等一系列配套實(shí)施辦法,吸引和支持青年人才來深發(fā)展。《若干措施》于2026年1月1日起施行,將為青年人才解除來深發(fā)展的后顧之憂,該政策提供從“一張床”到“一間房”的安居保障,以及從“一張桌”到“一間辦公室”的樂業(yè)空間,全方位、長(zhǎng)周期陪伴青年人才成長(zhǎng)。
27歲OpenAI前研究員姚順雨入職騰訊:
任總辦首席AI科學(xué)家,負(fù)責(zé)大語言模型部等
12月17日,澎湃新聞?dòng)浾攉@悉,騰訊升級(jí)大模型研發(fā)架構(gòu),新成立AI Infra部、AI Data部、數(shù)據(jù)計(jì)算平臺(tái)部,全面強(qiáng)化其大模型的研發(fā)體系與核心能力。Vinces Yao出任“CEO/總裁辦公室”首席AI科學(xué)家,向騰訊總裁劉熾平匯報(bào);同時(shí)兼任AI Infra部、大語言模型部負(fù)責(zé)人,向技術(shù)工程事業(yè)群總裁盧山匯報(bào)。
作為騰訊大模型體系的重要一環(huán),AI Infra部將負(fù)責(zé)大模型訓(xùn)練和推理平臺(tái)技術(shù)能力建設(shè),聚焦大模型分布式訓(xùn)練、高性能推理服務(wù)等核心技術(shù)能力,構(gòu)建大模型AI Infra核心競(jìng)爭(zhēng)力,為大模型算法研發(fā)和業(yè)務(wù)場(chǎng)景落地提供穩(wěn)定高效的技術(shù)支持和服務(wù)。
騰訊方面向澎湃新聞?dòng)浾弑硎荆珹I大模型研究與工程技術(shù)緊密相關(guān)。此次大模型研發(fā)架構(gòu)升級(jí),在進(jìn)一步強(qiáng)化騰訊工程化優(yōu)勢(shì)同時(shí),旨在提升AI大模型研究能力,聚焦公司AI戰(zhàn)略布局,提升AI大模型的研發(fā)效率。
盡管內(nèi)部信息并未公布其中文姓名,但鳳凰網(wǎng)科技從多個(gè)信源處獲悉,其為今年9月傳言加入騰訊的前OpenAI研究科學(xué)家、AI領(lǐng)域頂尖人才姚順雨。
![]()
據(jù)公開資料,姚順雨畢業(yè)于清華大學(xué)姚班,清華姚班是清華大學(xué)計(jì)算機(jī)科學(xué)實(shí)驗(yàn)班的簡(jiǎn)稱,由世界著名計(jì)算機(jī)科學(xué)家姚期智院士于2005年創(chuàng)辦,旨在培養(yǎng)國(guó)際頂尖的計(jì)算機(jī)科學(xué)及交叉創(chuàng)新人才。姚順雨曾任姚班聯(lián)席會(huì)主席,還是清華大學(xué)學(xué)生說唱社聯(lián)合創(chuàng)始人。
姚順雨隨后就讀于普林斯頓大學(xué),獲計(jì)算機(jī)博士學(xué)位。其在博士期間提出思維樹(Tree of Thoughts)框架改進(jìn)決策模型,構(gòu)建CoALA模塊化認(rèn)知架構(gòu)。
2024年,姚順雨加入OpenAI,參與智能體產(chǎn)品operator與deep research開發(fā),是項(xiàng)目的核心貢獻(xiàn)者。在前期研究過程中,他為語言智能體方向的開啟和發(fā)展做出了基礎(chǔ)性貢獻(xiàn)。
2025年5月23日,《麻省理工科技評(píng)論》“35歲以下科技創(chuàng)新35人”中國(guó)區(qū)名單發(fā)布,27歲的姚順雨入選,成為最年輕的入選者。
(來源:澎湃新聞、鳳凰網(wǎng)科技)
突發(fā)!OpenAI大神姚順雨,任騰訊首席AI科學(xué)家
【新智元導(dǎo)讀】OpenAI大神姚順雨,突然入職鵝廠,雙重身份曝光,任CEO/總裁辦公室首席AI科學(xué)家,同時(shí)兼任AI Infra部、大語言模型負(fù)責(zé)人。
今天,OpenAI科學(xué)家、清華校友姚順雨入職騰訊,出任CEO/總裁辦公室首席AI科學(xué)家!
![]()
個(gè)人主頁暫未更新
幾個(gè)月前,全網(wǎng)一則關(guān)于姚順雨去向的爆料,在AI圈掀起漣漪。
如今,這個(gè)被反復(fù)討論卻始終未被官方正式的消息,終于迎來了大結(jié)局。
有媒體報(bào)道,騰訊要對(duì)內(nèi)部大模型研發(fā)體系,進(jìn)行一次力度空前的架構(gòu)升級(jí),其中包括——
新成立AI Infra部、AI Data部、數(shù)據(jù)計(jì)算平臺(tái)部,試圖從算力、數(shù)據(jù)到平臺(tái)能力。
一切行動(dòng),就是為了全面夯實(shí)大模型「地基」。
與此同時(shí),一直未正式露面的姚順雨,也首次以官方身份亮相,擔(dān)任兩大職務(wù)——
任CEO/總裁辦公室首席AI科學(xué)家,向騰訊總裁劉熾平匯報(bào);
兼任AI Infra部、大語言模型部負(fù)責(zé)人,向技術(shù)工程事業(yè)群總裁盧山匯報(bào)
![]()
這位AI天才的加入,將為中國(guó)大語言模型領(lǐng)域帶來怎樣的變革?
清華姚班畢業(yè),頂級(jí)學(xué)霸
姚順雨本科畢業(yè)于清華大學(xué),是姚班出身的典型「學(xué)霸」,學(xué)業(yè)生涯一路閃耀。
![]()
初中階段,他就讀于合肥45中,后升入合肥市第一中學(xué)。
2014年,他斬獲「全國(guó)信息學(xué)奧林匹克競(jìng)賽」(NOI)銀牌。次年,更以安徽省理科第三的高考成績(jī)考入清華姚班,主修計(jì)算機(jī)科學(xué),并曾擔(dān)任姚班學(xué)生會(huì)主席。
2019年本科畢業(yè)后,他前往普林斯頓大學(xué)直接攻讀博士學(xué)位。
![]()
2024年博士畢業(yè)后,他直接加入OpenAI。
![]()
他主要研究「智能體」,在OpenAI研究用于數(shù)字自動(dòng)化(WebShop、SWE-bench、tau-bench)的語言智能體,相關(guān)成果包括ReAct、Reflexion、思維樹、SWE-agent、CoALA等。
據(jù)谷歌學(xué)術(shù)統(tǒng)計(jì),其代表作「ReAct」和「思維樹」被引數(shù)已超4000次,總引用數(shù)近1.6w。
![]()
早在博士期間,姚順雨已深耕智能體領(lǐng)域。
在博士學(xué)位論文中,他系統(tǒng)總結(jié)了語言智能體的核心價(jià)值——從「下一個(gè)token預(yù)測(cè)」邁向「數(shù)字自動(dòng)化」,并提出一系列新基準(zhǔn)測(cè)試、新方法論與新原則框架。
![]()
傳送門:https://ysymyth.github.io/papers/Dissertation-finalized.pdf
值得一提的是,姚順雨還將自己的博士答辯全程在B站公開。

論文中,他還特別回顧了與博士生導(dǎo)師Karthik Narasimhan的深厚情誼。
2019年,盡管已選擇普林斯頓,姚順雨仍對(duì)未來方向有所猶豫。
正是在此時(shí),他主動(dòng)聯(lián)系Karthik,提出「GPT-2這類語言模型看起來很有前景,或許能直接用于解決文本游戲」?
Karthik欣然應(yīng)允。
此后五年,姚順雨不僅在研究中收獲豐碩,更與導(dǎo)師結(jié)下亦師亦友的情誼——Karthik甚至成為他婚禮上的伴郎。
![]()
熟悉的人或許都知道,Karthik是GPT開創(chuàng)性論文的作者之一,本人曾在2017-2018年間于OpenAI擔(dān)任訪問研究員。
![]()
AI進(jìn)入下半場(chǎng)
今年4月,姚順雨對(duì)AI發(fā)展趨勢(shì)提出了獨(dú)到見解:
強(qiáng)化學(xué)習(xí)終于迎來實(shí)效,而接下來,「評(píng)估」將超越「訓(xùn)練」成為關(guān)鍵。
![]()
他指出,AI已進(jìn)入「下半場(chǎng)」,重心正從「解題」轉(zhuǎn)向「命題」。
在他看來,「評(píng)測(cè)將比訓(xùn)練更重要」是當(dāng)前最值得關(guān)注的趨勢(shì)。
長(zhǎng)期以來,評(píng)測(cè)雖與訓(xùn)練、優(yōu)化并列為學(xué)習(xí)算法的三大要素,卻從未獲得如此高度的重視。
![]()
姚順雨強(qiáng)調(diào),當(dāng)前的核心問題是,弄清楚究竟要讓AI做什么。
要在AI新時(shí)代中勝出,我們必須及時(shí)調(diào)整思維與能力結(jié)構(gòu)——
更貼近產(chǎn)品經(jīng)理的角色:定義問題、設(shè)定指標(biāo)、組織迭代,讓AI能力在真實(shí)世界中轉(zhuǎn)化為可衡量的價(jià)值。
![]()
而OpenAI最新研究也印證了這一觀點(diǎn):評(píng)測(cè)方法是影響模型幻覺的關(guān)鍵因素,優(yōu)化評(píng)測(cè)手段可進(jìn)一步釋放大模型的潛力。
![]()
論文地址:https://arxiv.org/pdf/2509.04664
或許,在接下來的旅程中,姚順雨將會(huì)踐行自己的理念——通過評(píng)測(cè)重新定義AI的邊界與價(jià)值。
(內(nèi)容來源:新智元)
姚班學(xué)霸、OpenAI姚順雨:大模型下半場(chǎng)是產(chǎn)品的游戲
AI趨勢(shì)正在“中場(chǎng)休息”,在此之前訓(xùn)練>評(píng)估,在此之后評(píng)估>訓(xùn)練。
這是OpenAI員工、姚班校友姚順雨給出的最新判斷。
![]()
AI發(fā)展分為上下兩階段。上半場(chǎng)以模型和方法為中心,核心構(gòu)建了模型和訓(xùn)練方法;隨著AI技術(shù)成熟,下半場(chǎng)的重點(diǎn)轉(zhuǎn)向如何定義有現(xiàn)實(shí)意義的任務(wù)、如何有效評(píng)估AI系統(tǒng)的表現(xiàn)。
這要求研究者要及時(shí)轉(zhuǎn)變思維和技能樹方向,可能要更接近于產(chǎn)品經(jīng)理。
為啥會(huì)出現(xiàn)這種轉(zhuǎn)變?
因?yàn)閺?qiáng)化學(xué)習(xí)終于能泛化了。
在姚順雨最新的blog中,他系統(tǒng)性闡釋了如上觀點(diǎn)以及背后思考。想法剛剛發(fā)布就得到了不少業(yè)內(nèi)人士的認(rèn)可:
我同意你的觀點(diǎn)。評(píng)估中還有一點(diǎn)值得考慮:成本成為越來越重要的影響因素。
![]()
離線RL/無監(jiān)督學(xué)習(xí)→在線RL學(xué)習(xí)策略。我們是不是已經(jīng)準(zhǔn)備好轉(zhuǎn)型了?
![]()
值得一提的是,這篇文章也有AI參與了撰寫。
這篇博文是基于我在斯坦福大學(xué)和哥倫比亞大學(xué)的演講。我使用OpenAI深度研究來閱讀我的PPT并打了草稿。
AI下半場(chǎng)是產(chǎn)品的游戲
姚順雨表示,人工智能發(fā)展走向新階段,我們的思維方式應(yīng)該變一變了。
把重點(diǎn)從解決問題轉(zhuǎn)移到定義問題,在新時(shí)代評(píng)估比訓(xùn)練更重要。 我們不僅要思考“我們能否訓(xùn)練一個(gè)模型來解決XX”,而是要思考“我們應(yīng)該訓(xùn)練AI做什么?我們?nèi)绾魏饬空嬲倪M(jìn)步?”
為啥這么說?
先來看AI的上半場(chǎng)發(fā)生了什么。
AI上半場(chǎng):方法為王
在AI發(fā)展的“前半場(chǎng)”,最有影響力的工作主要集中在模型和訓(xùn)練方法(如 Transformer、AlexNet、GPT-3),而不是任務(wù)或基準(zhǔn)。即便是非常重要的基準(zhǔn)數(shù)據(jù)集如ImageNet,其引用量也不到AlexNet的三分之一。
![]()
究其原因,是因?yàn)榉椒ū热蝿?wù)更難、更有趣。
構(gòu)建新算法或模型架構(gòu)通常需要深刻的洞察和復(fù)雜的工程實(shí)踐——比如反向傳播算法、AlexNet、Transformer這樣的突破;相比之下,任務(wù)的設(shè)定往往只是把人類的已有任務(wù)(如翻譯、圖像識(shí)別)轉(zhuǎn)化為可度量的標(biāo)準(zhǔn),技術(shù)含量相對(duì)較低。
沒什么洞察力,甚至都沒什么工程力的體現(xiàn)。
![]()
加之,任務(wù)容易定義但不夠通用,而方法(如Transformer)卻可被廣泛應(yīng)用到NLP、CV、RL等多個(gè)領(lǐng)域,從而產(chǎn)生跨任務(wù)的通用價(jià)值。
一個(gè)好的模型架構(gòu)或算法可以在多個(gè)基準(zhǔn)上“爬山”(hillclimb),因?yàn)樗哂型ㄓ眯院秃?jiǎn)潔性。這也是為什么“方法勝于任務(wù)”在這個(gè)階段成為主導(dǎo)邏輯。
盡管這種以“方法創(chuàng)新”為主導(dǎo)的范式持續(xù)多年并催生了巨大突破,但這些方法的積累最終帶來了范式轉(zhuǎn)變的臨界點(diǎn)——這些基礎(chǔ)能力的集成已經(jīng)可以構(gòu)建出“可工作的AI任務(wù)解法配方(recipe)”,也就意味著:我們終于可以認(rèn)真考慮如何解決真實(shí)任務(wù)本身,而不僅僅是構(gòu)建更強(qiáng)的模型。
強(qiáng)化學(xué)習(xí)里,算法是次要的
姚順雨認(rèn)為,配方由三要素組成:
大規(guī)模語言訓(xùn)練
計(jì)算與數(shù)據(jù)的規(guī)模化
推理與行動(dòng)
具備這三要素即可產(chǎn)出穩(wěn)定且強(qiáng)大的AI。
通過強(qiáng)化學(xué)習(xí)可以理解為何是這三要素。
強(qiáng)化學(xué)習(xí)的三大核心是算法、環(huán)境和先驗(yàn)知識(shí)。
長(zhǎng)期以來,強(qiáng)化學(xué)習(xí)研究者大多主要關(guān)注算法,忽視環(huán)境和先驗(yàn)。但隨著經(jīng)驗(yàn)增長(zhǎng),大家發(fā)現(xiàn)環(huán)境和先驗(yàn)對(duì)實(shí)際效果影響巨大。
![]()
但是在深度強(qiáng)化學(xué)習(xí)時(shí)代,環(huán)境變得很重要。
算法的性能通常特定于它的開發(fā)和測(cè)試環(huán)境。如果忽視了環(huán)境,就可能建立一個(gè)“最優(yōu)”的算法,但這個(gè)算法只是在特定情況下很強(qiáng)。
那為什么不首先找出真正想要解決的環(huán)境,然后再找最適合它的算法?
姚順雨表示,這正是OpenAI最初的思路。
OpenAI最初的計(jì)劃就是把整個(gè)數(shù)字世界變成一個(gè)可以用強(qiáng)化學(xué)習(xí)解決的“環(huán)境”,然后用聰明的RL算法來解決這些環(huán)境中的任務(wù),最終實(shí)現(xiàn)數(shù)字通用人工智能(digital AGI)。
OpenAI在這個(gè)思路下完成了很多經(jīng)典工作,比如用RL打Dota、解決機(jī)械手等。
但它并沒有實(shí)現(xiàn)讓RL解決計(jì)算機(jī)/上網(wǎng)的問題,RL Agent也無法遷移到其他環(huán)境,似乎差了點(diǎn)什么。
到了GPT-2/3時(shí)期,OpenAI意識(shí)到,缺的是先驗(yàn)知識(shí)。
需要引入強(qiáng)大的語言先驗(yàn)知識(shí),才能解決在復(fù)雜環(huán)境中難以泛化的問題。這使得RL Agent在聊天或網(wǎng)頁任務(wù)中有顯著提升,如WebGPT、ChatGPT。
但這好像和人類智慧上仍舊有差別,比如人類可以輕松上手一個(gè)新游戲、哪怕是零樣本,但是當(dāng)時(shí)AI做不到。
影響泛化的關(guān)鍵是“推理能力”。
人類不是單純執(zhí)行指令,而是會(huì)進(jìn)行抽象思考。比如:“地牢危險(xiǎn) → 我需要武器 → 沒有武器 → 可能藏在箱子里 → 箱子3在柜子2 → 那我先去柜子2”。
姚順雨說,推理是種“奇怪”的動(dòng)作。
![]()
推理本身不直接改變世界,但其空間是無限組合的。在傳統(tǒng) RL 框架中,它是“不劃算”的 —— 推理不像行動(dòng)那樣有即時(shí)反饋,反而會(huì)“稀釋”獎(jiǎng)勵(lì)。
但如果把“推理”加入RL的動(dòng)作空間,并結(jié)合語言預(yù)訓(xùn)練模型的先驗(yàn),就可以帶來極強(qiáng)的泛化能力。類似于:雖然你面對(duì)的是無限個(gè)空盒子,但你從過往經(jīng)驗(yàn)中學(xué)會(huì)了如何在空盒子中識(shí)別有價(jià)值的選擇。
所以,一旦有了好的語言預(yù)訓(xùn)練先驗(yàn)+合適的環(huán)境設(shè)計(jì)(允許語言推理),RL法本身反倒變得次要。
o系列、R1、Deep Research、智能體等,都是由此而來。
或許正如喬布斯所說,你無法預(yù)見未來的點(diǎn)點(diǎn)滴滴是如何連接的;只有回頭看時(shí),你才能把它們串聯(lián)起來。
下半場(chǎng)要有新的評(píng)估規(guī)則
由此,配方改變了AI社區(qū)的比賽規(guī)則。
開發(fā)新模型→刷新基準(zhǔn)→創(chuàng)建更難的基準(zhǔn)→更強(qiáng)的新模型。
這種規(guī)則在AI發(fā)展的上半場(chǎng)是有必要的,因?yàn)樵谀P椭悄芩讲粔蚋邥r(shí),提高智商通常會(huì)提高效用。
可問題是,盡管AI已經(jīng)在各類基準(zhǔn)測(cè)試(如圍棋、SAT、律師考試、IOI 等)中超越人類,但這些成就并未真正轉(zhuǎn)化為現(xiàn)實(shí)世界的價(jià)值或效用。
Jason Wei的一張圖可以很好解釋這一趨勢(shì),AI刷榜的速度越來越快,但是世界因此改變了嗎?
![]()
姚順雨認(rèn)為當(dāng)前的評(píng)估方式主要存在兩方面局限,導(dǎo)致AI在解決現(xiàn)實(shí)問題上嚴(yán)重脫節(jié)。
1. 假設(shè)任務(wù)是獨(dú)立同分布的(i.i.d.):模型被要求獨(dú)立完成每個(gè)任務(wù),然后取平均得分。這種方式忽略了任務(wù)之間的連貫性和學(xué)習(xí)效應(yīng),無法評(píng)估模型長(zhǎng)期適應(yīng)能力和記憶機(jī)制的重要性。
2. 假設(shè)評(píng)估過程應(yīng)自動(dòng)化且與人無關(guān):當(dāng)前模型接收輸入 → 完成任務(wù) → 接收評(píng)分。但真實(shí)世界中,大多數(shù)任務(wù)(如客戶服務(wù)、軟件開發(fā))都需要持續(xù)的人機(jī)互動(dòng)。
![]()
解決之道就是重新設(shè)計(jì)評(píng)估方式,為下半場(chǎng)制定新的游戲規(guī)則。
姚順雨認(rèn)為創(chuàng)新的評(píng)估應(yīng)該貼近現(xiàn)實(shí)世界任務(wù)、優(yōu)化模型配方解決任務(wù),形成新的正向循環(huán)。
這個(gè)游戲很難,因?yàn)樗吧且埠芰钊伺d奮。 上半場(chǎng)的玩家解決視頻、游戲和考試任務(wù),下半場(chǎng)的玩家則利用智能創(chuàng)建有用的產(chǎn)品,建立起價(jià)值數(shù)十億甚至數(shù)萬億美元的公司。 歡迎來到AI下半場(chǎng)!
姚班學(xué)霸、思維樹作者
最后再來介紹一下本文作者姚順雨。
他去年加入OpenAI,擔(dān)任研究員,負(fù)責(zé)研究智能體。
他身上的關(guān)鍵字有:
清華姚班
姚班聯(lián)席會(huì)主席
清華大學(xué)學(xué)生說唱社聯(lián)合創(chuàng)始人
普林斯頓計(jì)算機(jī)博士
他的研究成果包括:
思維樹(Tree of Thoughts):讓LLM反復(fù)思考,大幅提高推理能力。
SWE-bench:一個(gè)大模型能力評(píng)估數(shù)據(jù)集。
SWE-agent:一個(gè)開源AI程序員。
最后,想要閱讀更原汁原味的版本,可戳:https://ysymyth.github.io/The-Second-Half/
本文來自微信公眾號(hào):,作者:明敏
來源:深圳夢(mèng)(微信號(hào)ID:SZeverything)綜合
我們的使命是:星辰大海,只與夢(mèng)想者同行!
擁有深圳夢(mèng),請(qǐng)關(guān)注(微信號(hào)ID:SZeverything)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.