<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一堂「強化學習」大師課 | 42章經

      0
      分享至

      曲凱:今天我們請來了國內強化學習 (RL) 領域的專家吳翼,吳翼目前是清華大學交叉信息研究院助理教授,他曾經在 OpenAI 工作過,算是國內最早研究強化學習的人之一,我們今天就爭取一起把 RL 這個話題給大家聊透。

      首先吳翼能不能簡單解釋一下,到底什么是 RL?

      吳翼:RL 是機器學習這個大概念下一類比較特殊的問題。

      傳統機器學習的本質是記住大量標注過正確答案的數據對。

      舉個例子,如果你想讓機器學習能分辨一張圖片是貓還是狗,就要先收集 10000 張貓的照片和 10000 張狗的照片,并且給每一張都做好標注,讓模型背下來。

      上一波人工智能四小龍的浪潮其實都以這套框架為基礎,主要應用就是人臉識別、指紋識別、圖像識別等分類問題。

      這類問題有兩個特點,一是單一步驟,比如只要完成圖片分辨就結束了;二是有明確的標準答案。

      但 RL 很不一樣。

      RL 最早是用來打游戲的,而游戲的特點和分類問題有兩大區別。

      第一,游戲過程中有非常多的動作和決策。比如我們玩一個打乒乓球的游戲,發球、接球、回球,每一個動作都是非標的,而且不同的選擇會直接影響最終的結果。

      第二,贏得一場游戲的方式可能有上萬種,并沒有唯一的標準答案。

      所以 RL 是一套用于解決多步決策問題的算法框架。它要解決的問題沒有標準答案,每一步的具體決策也不受約束,但當完成所有決策后,會有一個反饋機制來評判它最終做得好還是不好。

      因此,RL 其實更通用一些,它的邏輯和我們在真實生活中解決問題的邏輯非常接近。比如我要去美國出差,只要最后能順利往返,中間怎么去機場、選什么航司、具體坐哪個航班都是開放的。

      其實人生也是一個強化學習的過程,因為你有很多種選擇,但沒人告訴你通往成功的路具體要怎么走。

      曲凱:這個點很有意思!不過對于強化學習來說,最終的產出是有一個明確的判定標準的,但人生卻沒有一個明確的好壞判斷,對吧?

      吳翼:這兩者確實有一點差別,RL 的前提是你知道獎勵函數到底是什么,比如打游戲,贏了就是好,但人生并沒有這樣的標尺。

      所以我覺得人生有一個很好玩的地方是,你需要花很多時間先探索自己的獎勵函數是什么,很多人可能努力了很長時間,最后卻發現找錯了獎勵函數。

      曲凱:是。另外我記得 RL 是 10 年前就被討論過的概念,為什么現在又火了起來?RL 和 LLM 是怎么結合起來的?

      吳翼:最初,RL 和 LLM 并沒有什么關聯。LLM 的本質是 next token prediction,每次只預測下一個詞是什么。當我們給 LLM 看過足夠多的數據后,它可能就具備了通用性和泛化能力,可以從中找到規律,預測一句話后面要接什么。用一句俗話來說,就是「熟讀唐詩三百首,不會作詩也會吟」。

      但這種訓練方式有一個缺陷,就是 LLM 不會遵從指令。

      這也是為什么 GPT-3 剛發布時,很多人覺得它不好用。舉個例子,如果你對 GPT-3 說「解釋登月」,你期待它給你介紹一下阿波羅計劃、嫦娥計劃等等。但可能它見過的數據都長成「解釋登月是什么」這樣,所以它會回你一個「是什么」。

      曲凱:對,我們一直說 LLM 的本質是個概率模型。

      吳翼:所以為了解決「指令遵從」的問題,OpenAI 第一次在 InstructGPT 中將 RL 和 LLM 結合了起來,然后發現效果還不錯。

      我們知道 RL 需要一個明確的任務,一些可用的決策動作,和一個 reward。還用剛剛的例子,OpenAI 的做法是把 RL 的任務定義成「解釋登月」這個指令,決策是模型看到這個指令之后所說的每一個詞,reward 就是模型最后給出的答案是不是和指令的需求一致。

      曲凱:要怎么定義「一致」?

      吳翼:這是一個非常好的問題。大家發現沒法定義,還是需要人來判斷模型輸出的答案哪個更好,或者寫一些好的答案作為范本。最后是用人為定義的這些數據訓練出了一個 reward model,也就衍生出了 RLHF (Reinforcement Learning from Human Feedback)的概念。

      曲凱:去年 RLHF 這個詞非?;?,但有人會說 RLHF 的本質是對齊,而不是 RL。那么大家今天講的 RL 和 RLHF 到底有什么區別呢?

      吳翼:這兩者確實不太一樣。RLHF 到去年為止的主要價值在于讓 LLM 好用,好比讓一個聰明的清北學生經過實習之后能變成一個很能打的員工。

      它不存在 scaling law,也不能讓 LLM 本身更聰明,但是 RL 可以。

      這是怎么實現的呢?就是模型能遵從指令后,大家又在尋找除了預訓練之外,能讓模型變得更聰明的第二曲線。最后 Ilya 想到,LLM 在收到一個指令后會立馬輸出答案,但實際上人類在處理復雜問題之前往往會先思考。那如果能讓 LLM 學會「慢思考」,是不是就能變得更聰明?

      實現這一點的方法有很多,最終 OpenAI 發現了一種簡單有效的方法,就是讓模型「多吐點字」。收到指令后沒必要著急給出答案,可以先吐 10000 個字再作答。這個吐字的過程就相當于思考,思考時間越長,答案就越準確。

      這個過程就叫 inference time scaling。

      曲凱:為啥 LLM 吐的字越多就越聰明?

      吳翼:這件事到今天為止還沒有一個理論能解釋。所以從有「慢思考」的想法到真正實現它,OpenAI 其實花了一年半到兩年的時間,這個過程需要極大的堅持。

      總之 OpenAI 摸索出這個范式之后,問題就變成了要怎么訓練一個能吐那么多話的模型。

      這時又輪到 RL 登場了,因為吐字的這套邏輯和打游戲的邏輯非常像,我們只期待模型最后能輸出正確答案,中間它吐的那幾萬個字是什么無所謂。

      那新的問題又來了,要怎么評估模型慢思考的過程中產生的這些數據?因為和 RLHF 不同,RLHF 的輸出可能只有幾百個字,所以我們可以人為標注和排序。但是 RL 的探索過程非常開放,在慢思考時可能會輸出幾十萬個 token,人工標注是做不過來的。

      最后 OpenAI 用了一種非常簡單的方式來解決這個問題,就是只用有標準答案的問題去訓練模型的推理能力。比如解方程,如果正解是 x=3,那模型寫 x=3 就正確,寫 x=4 就不對。至于它是怎么推出的這個答案,我們不管。

      曲凱:那如果只看最后的答案對不對,思考過程還會有做得好與不好的區別嗎?

      吳翼:有區別。我覺得 Anthropic 就做得特別好。

      因為我們很難限制模型的思考過程,所以模型經常在一些很簡單的問題上也要思考很久。比如有人會抱怨,問 DeepSeek「1 + 1 等于幾」這么簡單的一個問題,它也要想半天。

      相比之下,Anthropic 在這件事上就處理得比較好。你問 Claude「1 + 1」它就直接出答案,你問它一個復雜點的問題,比如說算個 24 點,它才想上個 10 秒。


      但正是因為我們對模型的思考過程不做限制,所以模型也會衍生出一些很有意思的泛化能力。比如我們問 R1 一個沒有標準答案的哲學問題,它想一想也能講得頭頭是道。

      曲凱:這是怎么做到的?

      吳翼:首先模型訓練時本身就會產生一定的泛化能力,但這還不太夠。所以當我們用大量有標準答案的理科問題訓完模型之后,還會用一些文科訓練把它往回掰一掰,不然這個模型就太理性了。

      曲凱:就有點 Nerdy (笑)。

      吳翼:是哈哈,所以你看 DeepSeek 的那篇 paper,其實他們最后是把一個 Nerd 模型和一個具備人文屬性的 base 模型合了起來,又做了 SFT 和 RLHF,最終才有了比較平衡的 R1。

      曲凱:那 R1 之后,現在整個行業對 RL+LLM 的最優路徑形成共識了嗎?

      吳翼:國內一些做得比較好的團隊,比如豆包和 DeepSeek,肯定還在探索各種新的可能性。其它團隊還處在一個追趕的階段,雖然他們可能也有自己的思考。

      而海外的很多團隊都有不同的 belief。拿 OpenAI 來說,他們的 RL 已經從純推理進化到 Agent 范式了。

      也就是從 InstructGPT 時傳統的單輪交互,躍遷到多輪交互,而且能自由上網,與虛擬世界互動,這是一個非常大的進步。

      曲凱:Agent 這個概念,我記得 23 年初就有了,也出現了 AutoGPT 等等,但如果我們現在回頭來看,是不是那個時候還不具備 Agent 的基礎?Agent 是從 RL 起來之后才可以開始做了嗎?

      吳翼:Agent 最核心的能力在于對文本之外的世界產生影響。當年的 AutoGPT 和 LangChain 等產品其實已經具備這種能力,但它們實現這一能力主要依賴 Prompt Engineering,你必須把每一步拆解清楚,讓它按部就班地照做。而現在有了 RL 之后,像 Operator,Deep research 就可以自主探索,端到端自己完成任務了。

      曲凱:如果 RL 已經能很好地完成復雜決策了,那能不能拋開 LLM,只用 RL 來做呢?

      吳翼:OpenAI 很早就試過這么干,但屢試屢敗。

      第一次是 16 年的一個叫 World of Bits 的項目,他們試圖通過 RL 來完成在網頁上訂機票的任務,失敗了。

      第二次是在 20 年,他們的機器人團隊想通過圖像輸入來控制機器人整理桌面,又失敗了。但這次失敗后,另一個團隊在 RL 中引入了一個預訓練模塊,就把這件事給做成了。

      于是大家發現,僅僅通過 RL 很難訓練出一個通用模型,雖然 RL 有很強的決策能力,但它的理解能力不足,需要有一個經過預訓練的模型提供一些基礎的理解能力、記憶能力等等。

      所以 LLM 和 RL 之間是乘法關系,二者相乘才能實現最后的智能,缺一不可。

      曲凱:這樣捋下來其實很多東西就串起來了,之所以 OpenAI 能把 RL 先做起來,是因為他們一開始就在做 RL,后面把 LLM 和 RL 結合起來是一件很自然的事情。

      那如果理解能力是交給了大語言模型或者多模態模型負責,生成能力呢?這個和 RL 有關系嗎?

      吳翼:RL 和生成之間也沒有太大關系。另外我一直認為生成容易,理解難。

      曲凱:我前段時間聽到過一個非常反常識的說法:理解一張圖片所需的 token 其實比生成要高。

      吳翼:對,需要的 token 多正是因為理解是一件更難的事情。

      舉個例子,如果你收到了一個俄文指令,但你根本不會俄文,那你可能自己悟一輩子也悟不會。而如果你已經懂俄文了,那再用俄文培訓你做任何事情,用俄文寫詩,買票,都不會那么困難。

      曲凱:所以相當于 LLM 負責理解跟記憶,RL 進來之后給 LLM 加上了長程思維能力,并且負責決策跟執行。那能不能說 RL 和 LLM 放到一起就已經完整了呢?

      吳翼:我只能說我們現在看到的最好的 Agent 模型確實是這樣整合出來的,但我覺得這個范式和 RL 算法都還有很大的發展空間,因為這個路徑才剛剛起步,RL 的 scaling law 也才剛剛開始。

      曲凱:具體會怎么發展?現在大家都覺得預訓練的 scaling law 已經不太 work 了,RL 會有多大的發展空間?

      吳翼:這里要稍微更正一下,預訓練的 scaling law 并不是不 work 了,只是收益變小了。

      現在預訓練還有兩個重要的方向,一個是數據,比如如果要強化多模態的理解能力,那就需要大量的圖文混合數據,而且圖文間需要有比較好的邏輯關系。這類高質量數據網上是遠遠不夠的,所以就需要發展合成數據。

      另一個方向是把模型做小,盡量蒸餾出一個更小規模、但具備同等能力的模型。因為 RL 模塊已經足夠復雜,在如此高的復雜度上,LLM 規模越大,訓練的不穩定性就越高。很多人總說蒸餾可恥,但實際上如果能做到像 o3-mini 那樣的程度,不僅不可恥,反而非常厲害。

      對于強化學習來說,首先它的 scaling law 還處于初始階段,斜率足夠高,決策能力還會持續提升。

      其次,不同的大模型公司在 RL+LLM 的路徑上走向深水區之后,方向上也會出現分化。目前主要有三個大的分支:

      1) 編程,典型代表是 Anthropic。

      2) Agent,典型代表是 OpenAI。

      3) 通用的泛化能力 (比如泛化到哲學、文學等領域),典型代表是 DeepSeek。

      曲凱:強化學習做得好與不好,在用戶側的感知主要是什么?

      吳翼:首先可以判斷準確率。不管是做數學題,還是寫分析報告,或者是在網站上完成一些操作,準確率都是可以驗證的,只不過有的可以通過 benchmark 來驗證,有的還是要看人的體感。

      此外,多輪交互的體驗也特別重要。舉個例子,當我們讓模型協助 debug 時,它通常會直接開搞。但 Claude 就很不一樣,它會問問題,比如你裝的環境包是什么之類的,用戶體驗就非常好。

      曲凱:那這個訓練過程是怎么實現的呢?我感覺預訓練的訓練過程比較好理解,無非是喂更多的數據,或者做些算法調優,RL 需要做什么?

      吳翼:對于強化學習來說,基建最最重要,其次是數據,再其次才是算法。

      基建可以理解為強化學習的框架,它決定了你的迭代效率。比如我們之前做過一版框架,以前訓練 7B 模型需要一周,而迭代了框架版本之后,只需要兩天就能把模型訓一遍,這樣一周就多了三次迭代試錯的機會。

      數據的作用很好理解,就好比學數學,差的老師只會讓學生狂刷小學題,刷了一堆也沒用,而好的老師則會針對性地出題,可能只需要兩道題,就能讓學生掌握某個知識點。

      最終的效果是各種因素耦合的結果,而且也存在很大的不確定性。

      強化學習很像煉丹,它是一門玄學,你經常會發現,它一直漲勢很好,但是某一刻莫名其妙就不漲了,或者說一開始不漲,突然開始猛增。

      曲凱:大模型現在主要是兩條主線,一條是 LLM 加強理解能力,一條是 RL 加強決策能力。那對于大模型團隊來說,該怎么設計相應的組織架構呢?

      吳翼:最好的情況就是這兩條線別分得太開,因為 RL+LLM 的范式非常復雜,需要團隊中的每個人都有破圈意識,最好什么都懂一點,才不容易出問題。舉個例子,一個做 RL 后訓練的人,也得懂一些預訓練的知識,否則 Ta 沒辦法判斷拿到的預訓練模型缺什么能力、少什么數據。

      但確實不同范式之間差別比較大,所以可能至少要有一個預訓練團隊和一個后訓練團隊。再往下分工,我覺得大致可以通過目標來區分,比如可以有多模態、RLHF 分支等等。

      曲凱:現在很多做 Agent 的公司都想配一個懂 RL 的人,你覺得這是必要的嗎?

      吳翼:我覺得很 make sense。雖然現在 RL 的門檻還很高,但一兩年內總會降下來,未來很可能大家都需要用 RL 做一些簡單的微調,先儲備一些人才總是沒錯的。

      曲凱:但未來大家真的需要自己做 RL 嗎?你看前兩年大家都在討論應用公司到底要不要自己做預訓練,現在基本上大家都默認使用開源模型就足夠了。那如果過兩年開源模型的 RL 水平也跟上來,大家是不是也可以直接用現成的?

      吳翼:這就是創業公司自己需要思考的問題了。

      且不說這件事的答案到底是怎樣的,我認為有一點是比較明確的,創業公司不該有終局思維。

      相反,創業公司的機會恰恰在終局到來之前。Manus 就是一個特別好的例子,在市場上還沒有太多類似產品的時候,他們以最快的速度做出了一個可用的產品,抓住了機會。

      現在 AI 發展得這么快,如果你真的去考慮終局,很可能會陷入一種無意義感,覺得世界上沒有你的機會。如果你一定要追求笑到最后,那還不如趁早投奔字節(笑)。

      曲凱:是。那從 Alpha Go 到現在,大家講 RL 已經快 10 年了,為什么相關的人才還是這么稀缺?

      吳翼:主要還是門檻太高了。你去看論文引用數,研究 RL 的,會比研究 NLP (自然語言處理)、CV (計算機視覺) 的,少一個數量級。要想把 RL 環境配好、跑完、能復現結果,就會能篩掉一大批人,而且 RL 的數學也更麻煩些。

      另外相比 NLP、CV 來說,RL 在工業界大規模使用的機會比較少,大家只能在學校里做,沒有一個工業級的人才池,所以人才體量也會小很多。

      最后就是強化學習對工程的要求非常非常高,所以導致大家也沒有好的基建條件去做強化學習。

      所以其實我回國之后做了很多開源的工作,就是希望能讓更多的人把 RL 用起來。

      曲凱:你們最近就聯合螞蟻研究院新發了一個強化學習的開源框架 AReaL-boba。

      吳翼:對。前面提到過,框架其實就是基建,是 RL 訓練和迭代的基礎。但開源的 RL 框架本就不多,用起來可能也不太順手,所以我們就自己搞了一個。

      我們的這個框架用起來比較穩定,速度也比較快,把 7B 的模型做到了 SOTA 標準。

      曲凱:也歡迎大家去 GitHub 上關注這個項目。

      那如果國內的公司現在想招或者培養一個 RL 人才,該怎么做?

      吳翼:這很難講,因為每個團隊的風格和所處階段都不太一樣。如果非要給一條建議,我會覺得「動手能力」和「不給自己設限」這兩點很重要,現在開源的項目和相關的資料信息非常多,所以關鍵還是要看這個人是不是發自內心地想學習,愿不愿意動手去實踐。

      曲凱:最后,我想再回到開頭你提到的「人生就是一場強化學習」這個點。你研究了這么多年 RL,是不是在自己做決策時也能獲得一些參考?有沒有什么可以泛化到人生中的經驗?

      吳翼:我有一系列圍繞 Diversity-driven RL 的工作,還蠻有參照意義的。

      傳統的 RL 只在乎結果,所以一旦發現能穩贏的策略之后,就會無限重復這個套路。

      但人類不是這樣思考的。人雖然也想贏,但會想換個贏法。就比如踢足球,雖然我知道帶球單刀特別好進球,但總這么踢我會覺得無聊,就想換頭球試一試。

      人之所以為人,是因為人都是 Diversity-driven 的,所以才有了截然不同的經歷和多姿多彩的人生。

      曲凱:我們之前錄過一期也聊過類似的一點,就是頂尖的牌手越來越趨同,一個比一個像 AI,然后這個游戲就變得沒意思了。

      吳翼:對。所以我們試著給 AI 強化學習的過程加了一個限制條件,不僅要求結果的質量,還要求結果的多樣性——每次都要找到一個新的解決路徑。結果模型自然而然地發現了一些很好玩的東西。

      映射到人生中,我發現現在很多人都傾向于選擇風險最低的路徑。我跟學生聊天的時候就發現,很多同學在做升學決策時,考慮問題的角度往往是為了「求穩」,比如有的同學覺得去美國可能會有簽證風險,于是就會選擇國內保研。

      但我覺得人還是要追求「熵值最大化」的生活方式。

      曲凱:不過強化學習是可以無限試錯的,而人生總有一種滋味叫「后悔」。

      吳翼:是有這個差別,但我覺得還是要勇敢一點,很多人覺得人生只有一次,我覺得不是,人生怎么著也能試錯個三四次,尤其 20 歲的年紀,你做任何事情都是對的。

      前提是你要敢于選擇,多跳出去看看,不要老局限在 local optimum (局部最優解) 里。比如我當年在伯克利讀書的時候,如果不是我自己主動地去敲了隔壁另一個導師的門,我可能最終不會拐上強化學習這條路。

      曲凱:是。最后我還想和你探討一下獎勵函數這件事。你開頭說人很可能奮斗了一段時間,卻發現最終的 reward 并不是自己想要的。那在 RL 里會遇到類似的問題嗎?有可能中途改變獎勵函數嗎?

      吳翼:在傳統 RL 里不大行,但因為我研究多智能體強化學習和人機交互,經常要面對沒有標準問題和清晰目標的情況,所以就需要訓練 AI 主動搜集信息、探索正確的獎勵函數的能力。

      比如我們做過一個能和人一起玩 Overcooked(一個廚房經營游戲)的 AI,在人機合作的過程中,這個 AI 需要猜出人想干嘛,然后和人一起打配合。那在這個過程中 AI 就必須大膽嘗試,在嘗試中得到各種信號,然后揣摩出人的意圖,也就是自己的 reward 到底什么。

      人生也是一樣,要想找到自己的獎勵函數,首先需要多主動探索,先和世界交手個三百回合。

      42章經

      思考事物本質

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      用最笨辦法給大家估算一下,現在有多少基金必須增持格力電器了

      用最笨辦法給大家估算一下,現在有多少基金必須增持格力電器了

      股災親歷者
      2025-12-28 21:00:06
      陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

      陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

      江江食研社
      2025-12-26 07:30:06
      美國女子二手市場上淘了一古董餐具柜,打開后一柜愛馬仕,臉都笑爛了

      美國女子二手市場上淘了一古董餐具柜,打開后一柜愛馬仕,臉都笑爛了

      北美省錢快報
      2025-12-28 08:29:26
      李淑賢抱憾離世,以拒絕合葬的方式,為那段不光彩的婚姻畫上句點

      李淑賢抱憾離世,以拒絕合葬的方式,為那段不光彩的婚姻畫上句點

      磊子講史
      2025-12-25 15:20:00
      二婚真的只是搭伙過日子嗎?網友們的分享,過來人的經驗要聽

      二婚真的只是搭伙過日子嗎?網友們的分享,過來人的經驗要聽

      另子維愛讀史
      2025-12-26 16:45:11
      徐鶯徹底發癲了!12月27號發文破口大罵,直接罵龐叔令是死老太婆

      徐鶯徹底發癲了!12月27號發文破口大罵,直接罵龐叔令是死老太婆

      小娛樂悠悠
      2025-12-28 10:32:39
      火箭隊贏球后,烏度卡點名一人,杜蘭特確認2件事,謝潑德很坦誠

      火箭隊贏球后,烏度卡點名一人,杜蘭特確認2件事,謝潑德很坦誠

      體壇大辣椒
      2025-12-28 13:07:02
      周大?;貞S金牛馬吊墜陰陽打工人

      周大?;貞S金牛馬吊墜陰陽打工人

      界面新聞
      2025-12-26 15:42:10
      南京博物院院長從靈谷塔七層一躍而下!

      南京博物院院長從靈谷塔七層一躍而下!

      興化論談
      2025-12-19 20:21:07
      牡丹花下死,做鬼也風流!37歲“縱欲過度”的王思聰,再陷大丑聞

      牡丹花下死,做鬼也風流!37歲“縱欲過度”的王思聰,再陷大丑聞

      瓜汁橘長Dr
      2025-12-22 15:12:57
      原來洪金寶說的都是實話,香港演藝圈只有周星馳在向家活出了尊嚴

      原來洪金寶說的都是實話,香港演藝圈只有周星馳在向家活出了尊嚴

      阿器談史
      2025-12-27 14:00:11
      申真谞賽季第5次遭阻擊9冠夢碎 王星昊扳掉最大對手為中國隊立大功

      申真谞賽季第5次遭阻擊9冠夢碎 王星昊扳掉最大對手為中國隊立大功

      勁爆體壇
      2025-12-28 11:46:08
      王星合體康嘉曝緬甸慘狀:被刷數萬網貸,曾向女友借錢分期償還

      王星合體康嘉曝緬甸慘狀:被刷數萬網貸,曾向女友借錢分期償還

      喜歡歷史的阿繁
      2025-12-28 16:14:49
      風光過后滿地雞毛!75歲著名藝人疾病纏身,兒子啃老不敢退休

      風光過后滿地雞毛!75歲著名藝人疾病纏身,兒子啃老不敢退休

      天天熱點見聞
      2025-12-28 08:23:06
      最大規模財務造假!虛增收入645億、套現169億

      最大規模財務造假!虛增收入645億、套現169億

      花顏蘊韻
      2025-12-28 04:45:10
      明確了!明年國補繼續、居民增收!

      明確了!明年國補繼續、居民增收!

      江南晚報
      2025-12-28 14:39:42
      張國立擔心的事發生了!替兒賠罪22年后和童瑤世紀同框:不敢看她

      張國立擔心的事發生了!替兒賠罪22年后和童瑤世紀同框:不敢看她

      樂悠悠娛樂
      2025-12-27 11:41:02
      林心如用一鍋鹵豬腳“拿捏”霍建華46歲生日,老干部人設徹底崩塌

      林心如用一鍋鹵豬腳“拿捏”霍建華46歲生日,老干部人設徹底崩塌

      達吉伍各莫
      2025-12-28 15:35:36
      明日進“二九”,別忘:蒸3白,煮2黃,忌1樣,溫陽益氣不怕冷

      明日進“二九”,別忘:蒸3白,煮2黃,忌1樣,溫陽益氣不怕冷

      小茉莉美食記
      2025-12-29 02:15:03
      田樸珺把透視裝穿到王石身邊,照片一出,全網替老王尷尬。我翻

      田樸珺把透視裝穿到王石身邊,照片一出,全網替老王尷尬。我翻

      TVB的四小花
      2025-12-29 03:52:34
      2025-12-29 04:55:00
      42章經 incentive-icons
      42章經
      創投圈第一自媒體
      58文章數 138關注度
      往期回顧 全部

      科技要聞

      特斯拉將在華布局自動駕駛?記者求證→

      頭條要聞

      途經俄羅斯航班墜機38人身亡 機身或被彈片擊中

      頭條要聞

      途經俄羅斯航班墜機38人身亡 機身或被彈片擊中

      體育要聞

      MVP概率達82.5%!約基奇連超大鳥喬丹

      娛樂要聞

      白敬亭現身冰雪大世界 拍視頻還翻車了

      財經要聞

      英偉達的收購史

      汽車要聞

      理想的2026:L9不容有失,i9再戰純電?

      態度原創

      手機
      藝術
      健康
      教育
      時尚

      手機要聞

      澎湃OS 3正式版再次擴容:15款設備喜提升級,你收到了嗎?

      藝術要聞

      撞見雪中花!這冬日限定的浪漫,一眼心醉!

      這些新療法,讓化療不再那么痛苦

      教育要聞

      高校忙著“保就業”,但崗位仍在“結構性收縮”,畢業生太難了

      “這頂帽子”太火了,今年流行的風格都離不開它

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久99亚洲网美利坚合众国| 日本丰满熟妇videossexhd| 4480yy亚洲午夜私人影院剧情| 91精品国产综合久久久蜜臀678| 她也色tayese在线视频| 国产粉嫩美女一区二区三| 国产美女被遭强高潮免费网站| 岢岚县| 日韩a视频| 精品国产AV| 人妻丰满精品一区二区A片| 梅河口市| 中文字幕亚洲一区二区va在线| 国产99久久久国产精品~~牛| 国产系列丝袜熟女精品视频 | 国产麻豆md传媒视频| 亚洲爆乳无码专区www| 亚欧洲乱码视频在线专区| 五月婷婷丁香| 国产成人综合日韩亚洲| 国产www在线观看| 少妇人妻偷人精品一区二区| 国产精品自拍中文字幕| 色婷婷色| 91n在线观看| 无码精品国产va在线观看| 无码h片在线观看网站| jizz喷水| 兴城市| 亚洲精品无码久久久影院相关影片| 亚洲一区二区经典在线播放| 69堂在线观看线无码视频一| 国产成人A∨| 免费中文熟妇在线影片| 日本一区二区三区在线 |观看| 国产免费av网站| 麻豆人人妻人人妻人人片av| 无码av免费精品一区二区三区| 国产口爆| 明水县| 婷婷丁香五月激情综合|