<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      蘋果AI的「中國局」:聯合高校發布大模型,是秀肌肉還是求生存?

      0
      分享至

      2024年的WWDC上,蘋果公布了自家的人工智能平臺Apple Intelligence。2024年秋季,Apple Intelligence在美國開啟測試,后續逐漸拓展到更多地區。

      不過,到目前為止,國行Apple Intelligence仍然沒有落地。對此,蘋果官方的說法是「Apple 智能推出時間依監管部門審批情況而定。」



      (圖源:蘋果)

      日前,知名蘋果爆料網站9to5Mac發文稱,蘋果聯合中國人民大學推出了VSSFlow新型AI模型,宣布在音頻生成技術取得了突破。蘋果此舉不僅是一次AI技術實力的展示,同時似乎也在釋放和國行Apple Intelligence相關的積極信號,Apple智能真的要來了嗎?

      無聲視頻自動配音,VSSFlow能解決哪些難題?

      通過蘋果和中國人民大學聯合發布的論文以及9to5Mac的相關報道,我們可以了解到,VSSFlow的主要亮點是打破了以往「環境音」和「對話語音」需要分別生成的限制。具體來說,以往的大部分視頻生成語音模型,都是把音頻中的環境音和人聲分開處理,而VSSFlow的優勢在于一站式同步生成。



      (圖源:arXiv)

      根據官方的說法,VSSFlow模型生成環境音的方式是每秒讀取10幀視頻畫面作為線索,然后在隨機噪聲中逐步「構建」出畫面的聲音。這個表述聽起來很簡單,但實現起來并不容易。一段沒有聲音的視頻,AI當然也不可能「聽」得到,本質上還是根據視頻畫面來「猜」最接近最真實的環境音,比如判斷出畫面中的具體現實場景,再匹配相應的環境音。

      VSSFlow對應的論文提到了關鍵的技術點——Flow-matching(流匹配),在AI世界中,模型需要通過雜亂的信息推理生成最可能的聲音。視頻畫面中藏著聲音對應的線索,AI就是要在這些雜亂的「噪音」和目標聲音之間建立起到達的路徑,也就是「流」。建立「流」的關鍵,是對視頻畫面和文字腳本的準確理解。



      (圖源:arXiv)

      至于文本生成語音的能力,在早期就存在很多解決方案。比如說,早前的智能手機以及很多閱讀App,都有TTS(文字轉語音)功能,它們只要把文字直接轉成語音庫里的預制音頻即可。不過,這種方案比較簡單粗暴,聲音聽起來機械感明顯,長句斷句會很奇怪。AI時代,大模型加持的文字轉語音體驗得到了大幅升級,真人感更明顯,無論是斷句、語氣還是情緒,都逐漸能做到以假亂真。

      VSSFlow的視頻生成人聲技術,特點在于通過視頻腳本+視頻畫面來生成音頻,可以通過畫面中人物的口型、表情等因素來匹配語音的語氣、情緒、節奏等,從而生成更真實的AI人聲。

      開頭說到了,VSSFlow能夠同時為視頻生成環境聲和人聲,根據官方描述,他們將視頻信號和文本轉錄一起嵌入到音頻生成的過程中。為了達到這一效果,研究人員進行了混合數據訓練,具體表現為VSSFlow模型訓練時使用了無聲視頻配環境音、無聲說話視頻配文本、以及純文本轉語音的數據。

      簡單總結下,VSSFlow是一款視頻生成音頻大模型,能同時為無聲視頻生成環境聲和人聲,核心優勢在于通過流匹配技術提升了生成效率和音頻質量。

      用AI生成語音,有點用但仍然太局限

      VSSFlow幫助視頻生成環境音和人聲的功能,具體能應用到哪些場景呢?小雷能想到的大概就是老舊電影的音頻修復、失語障礙人士的輔助音頻、影視作品配音等。畢竟,VSSFlow仍然需要依賴文字腳本來生成人聲,不能只根據視頻畫面來推測出人聲,這將讓它更接近于一款更好用的配音工具。

      目前市面上和VSSFlow最接近的大模型,應該是谷歌的Deepmind V2A(視頻轉音頻)。V2A也是根據視頻畫面和文字腳本來生成對應的環境音和人物對話,它的技術方案是在視覺信息和聽覺信息之間建立起映射機制。

      具體來說,視覺信息包含的主要是空間、色彩、形狀、運動等,聽覺信息一般是音色、頻率、節奏等,二者是不同的語義。將視覺特征和聽覺特征進行多層次的映射,持續訓練后,AI就能根據視頻畫面的信息「猜」出它應該匹配何種聽覺特征的音頻。



      (圖源:谷歌)

      不過,在小雷看來,視頻生成語音技術的應用場景,還是略微局限了一些。對普通用戶來說,這項功能的作用不是特別大。作為對比,當下流行的視頻生成技術,更加受創作者和普通用戶歡迎。使用者只要用一段話、幾張圖片,就能快速生成一段高真實度的視頻,實用性和趣味性都能瞬間拉滿。比如最近的Seedance 2.0,剛上線就火爆全網,大量用戶第一時間就嘗鮮體驗了。



      (圖源:雷科技,用Seedance 2.0制作)

      但給無聲視頻配音這個場景,大部分人都很難遇到,畢竟我們不會無緣無故制作或者得到一段無聲視頻。它更加適用于影視制作行業中的某些細分領域,比如傳統擬音師的工作。

      我們在很多影視作品中聽到的環境聲和動作聲,其實都是擬音師在錄音棚里錄的,比如敲擊椰子殼模擬馬蹄聲、搓動門鎖模擬手槍上膛聲等。同時,VSSFlow根據腳本和畫面生成人聲的功能,和動漫聲優所做的配音工作很接近。可以想象到的是,音頻生成技術未來對影視行業產生的沖擊力會相當大。

      同時,VSSFlow為代表的語音生成模型,固然不太可能作為獨立的應用向普通用戶推出,但和其他AI技術結合,會發揮出更大作用。比如它可以和視頻生成模型相結合,現在流行的視頻生成模型制作出來的視頻,大多會有配音。

      不過,很多AI生成視頻的背景音和人聲質量都相對一般,如果有VSSFlow之類的語音生成模型助力,那么整體的效果會更好。實際上,谷歌Deepmind的V2A技術并沒有以單獨模型的方式發布,而是將部分功能整合在谷歌自家的視頻生成模型Veo中。

      蘋果聯手國內重點高校,國行版AI要來了?

      對于蘋果產品,VSSFlow能落地的場景,小雷首先想到的是無障礙功能。目前蘋果設備的輔助選項中已經有實時語音功能,即用戶可以手機上打字,然后轉成音頻。



      (圖源:蘋果)

      如果VSSFlow能運用到這個場景里,那么語言障礙人士就可以在FaceTime之類的視頻通話中,邊輸入文字,邊讓AI結合視頻畫面生成更自然的人聲。當然,這項技術也能作為蘋果在AI領域的儲備,為后續視頻生成等功能或應用提供助力。

      而且,蘋果和國內重點高校合作、聯合發布VSSFlow,無疑是在釋放愿意深耕國內市場、推動國行AI落地的積極信號。在VSSFlow的論文中,署名者中六位是來自中國人民大學的學者,三位是蘋果的研究員。在這個項目中,蘋果扮演的角色更接近于支持者、參與者而非主導者。

      目前,國行版Apple Intelligence尚未推出。按照蘋果的政策,國行版iPhone等設備無法使用外版Apple Intelligence,未來外版硬件產品也不能用國行版Apple Intelligence。

      基本可以確定的是,國行版Apple Intelligence的落地過程中,蘋果會和國內AI巨頭達成合作。之前的傳言中,百度、阿里、DeepSeek等都是蘋果接觸過的廠商。2025年,彭博社知名記者馬克·古爾曼曾透露,國行Apple Intelligence采用的方案是阿里提供本地模型支持,百度文心一言提供云端AI支持。不過,國行Apple Intelligence 2025年未能落地,主要原因在于遇到了一些工程難題,同時國行AI的表現比較一般。

      不過即便忽略國行版AI缺位的事實,蘋果的AI布局相對其他廠商是比較落后的。目前而言,海外版Apple Intelligence實現的功能和場景,其實沒有太多特別之處,反而因為其相對羸弱的AI實力而被吐槽。比如說,蘋果近年推出的生成式圖片App「圖樂園(Image Playground)」,就飽受批評。這款App對圖片生成行為的管控非常嚴格,很多用戶的需求都被拒絕,被吐槽為只適合兒童使用的產品。

      Apple Intelligence還引入了外部力量來幫忙,主要是ChatGPT,后續還有Gemini。其中,ChatGPT植入到了Siri中,讓Siri更像一個完全體的智能助理而非傳統的語音助手。另外,AI相關的功能還有寫作助理、圖片消除等。只是,蘋果這些所謂的AI功能,實際體驗起來震撼感不夠強,有點小打小鬧的感覺。

      而且,蘋果為iOS 26畫的AI餅,至今還沒讓用戶吃上。根據最新消息,iOS 26.4的首個測試版將于2月底推送,會給AI帶來一點變化。這次系統升級,主要就是Siri會得到增強,包括擁有上下文理解能力、跨應用操作能力和屏幕感知識別能力。坦率說,這些升級仍然不會有什么驚喜感,只是多少會讓iOS 26變得更好用點。

      作為對照組的三星,早在2024年就推出了AI手機,并且快速完成了國行手機的AI本地化。具體來說,國行版手機中負責文本理解和生成的大模型為百度的文心一言,具體在筆記助手、錄音轉錄摘要等場景中發揮作用;它的生成式圖片編輯器則集成了美圖的奇想智能模型,實現智能消除、擴圖等功能;國行版的即圈即搜功能,后臺數據來源于百度搜索和京東。另外,三星國行手機也有部分端側AI功能,通話實時翻譯和分屏同傳翻譯,都是基于三星自研本地AI模型實現的。



      (圖源:三星)

      換言之,蘋果國行AI方案,大體上抄三星的作業就行。相比海外版Apple Intelligence,國行版的核心工作就是將其中涉及到的大模型替換成國內的,三星已經做出了示范。

      小雷個人認為,蘋果國行AI進展緩慢,主要責任還是在蘋果身上。畢竟,海外Apple Intelligence的落地過程也是一路磕磕絆絆,而且AI功能的實際體驗很一般。以這樣的執行力去推動國行Apple Intelligence項目,效率可想而知。

      當然,不管怎么說,蘋果參與的VSSFlow的到來,至少說明了蘋果在AI領域不是毫無作為。如果蘋果能持續在AI研究領域產出成果,那么蘋果硬件AI化進程將從中獲益,這才是構建未來蘋果底層競爭力的關鍵。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      都在質疑是不是演的?看完小乩童下轎這30秒,評論區徹底安靜了

      都在質疑是不是演的?看完小乩童下轎這30秒,評論區徹底安靜了

      奇思妙想生活家
      2026-02-22 12:38:41
      太尷尬了!走親戚剩下一大堆禮品,廣西網友吐槽過兩天出門咋處理

      太尷尬了!走親戚剩下一大堆禮品,廣西網友吐槽過兩天出門咋處理

      火山詩話
      2026-02-22 10:18:44
      看完破防了!真是“滿載而歸”,在G4京港澳高速粵L本田登上熱搜

      看完破防了!真是“滿載而歸”,在G4京港澳高速粵L本田登上熱搜

      火山詩話
      2026-02-22 08:29:48
      美國U-2偵察機全球共被擊落7架,其中5架敗于我軍之手,百歲院士張履謙披露詳情

      美國U-2偵察機全球共被擊落7架,其中5架敗于我軍之手,百歲院士張履謙披露詳情

      極目新聞
      2026-02-21 21:45:52
      2026年的保命策略:在這3個地方,主動選擇裝窮

      2026年的保命策略:在這3個地方,主動選擇裝窮

      舒山有鹿
      2026-02-21 10:48:07
      五臺山景區突發大火:駭人畫面流出,傷亡情況披露,大量隱情披露

      五臺山景區突發大火:駭人畫面流出,傷亡情況披露,大量隱情披露

      博士觀察
      2026-02-22 12:57:17
      為什么不允許莆田老太撤訴

      為什么不允許莆田老太撤訴

      法律學堂
      2026-02-22 08:09:22
      沖突爆發!兩人驅逐!等著被NBA禁賽吧

      沖突爆發!兩人驅逐!等著被NBA禁賽吧

      籃球教學論壇
      2026-02-22 14:59:27
      徐夢曬1金1銅!金牌已有劃痕 北京奧運金鑲玉含金量還在上升

      徐夢曬1金1銅!金牌已有劃痕 北京奧運金鑲玉含金量還在上升

      念洲
      2026-02-22 11:46:24
      戰斗民族至暗時刻:撒錢求人帶飛機來飛,奈何全球航司無人敢應!

      戰斗民族至暗時刻:撒錢求人帶飛機來飛,奈何全球航司無人敢應!

      民航觀點匯
      2026-02-22 10:00:13
      最后奪金點!谷愛凌決賽時間確定 極端情況下或取消 中國無緣金牌

      最后奪金點!谷愛凌決賽時間確定 極端情況下或取消 中國無緣金牌

      念洲
      2026-02-22 08:42:17
      恒大集團創始人許家印的靠山體系

      恒大集團創始人許家印的靠山體系

      地產微資訊
      2026-02-21 18:49:14
      河南礦山開工首日客戶排隊交錢,100萬現金放桌上,每個訂單都會給顧客400元紅包!此前“最愛發錢老板”崔培軍發1.8億年終獎全網爆火

      河南礦山開工首日客戶排隊交錢,100萬現金放桌上,每個訂單都會給顧客400元紅包!此前“最愛發錢老板”崔培軍發1.8億年終獎全網爆火

      大象新聞
      2026-02-22 13:48:04
      “初中女生被老人索賠22萬”,家長最新回應:對方已撤訴,不希望再占用公共資源

      “初中女生被老人索賠22萬”,家長最新回應:對方已撤訴,不希望再占用公共資源

      封面新聞
      2026-02-22 00:27:04
      3-1崩盤重演?林詩棟關鍵分再失誤,王皓嚴肅盯梢男隊梯隊危機

      3-1崩盤重演?林詩棟關鍵分再失誤,王皓嚴肅盯梢男隊梯隊危機

      卿子書
      2026-02-22 07:10:54
      歐盟、英國、加拿大、墨西哥、德國,最新發聲

      歐盟、英國、加拿大、墨西哥、德國,最新發聲

      第一財經資訊
      2026-02-22 09:12:04
      “釣帝”黑大爺因病去世享年75歲,釣魚曬成“老抽色”走紅 網友悼念:集體降三目

      “釣帝”黑大爺因病去世享年75歲,釣魚曬成“老抽色”走紅 網友悼念:集體降三目

      紅星新聞
      2026-02-22 12:24:53
      資本敢動媽祖?真兇被扒、福建老板直接封殺!小媽祖親自報平安

      資本敢動媽祖?真兇被扒、福建老板直接封殺!小媽祖親自報平安

      天氣觀察站
      2026-02-22 10:37:58
      中國游客貝加爾湖遇難最新消息:7人身份全部確認,均未通過正規旅行社報名;事故后當地又發生多起陷車事故

      中國游客貝加爾湖遇難最新消息:7人身份全部確認,均未通過正規旅行社報名;事故后當地又發生多起陷車事故

      大風新聞
      2026-02-21 23:13:45
      廣東過年搞衛生上熱搜!網友:洗了30年沒人住的舊房子,圖啥?

      廣東過年搞衛生上熱搜!網友:洗了30年沒人住的舊房子,圖啥?

      夜深愛雜談
      2026-02-21 21:50:39
      2026-02-22 15:27:00
      雷科技 incentive-icons
      雷科技
      專注AI硬科技
      36175文章數 811850關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      媒體:美對華貿易戰主力工具是301條款 此次裁決未觸及

      頭條要聞

      媒體:美對華貿易戰主力工具是301條款 此次裁決未觸及

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      藝術
      手機
      時尚
      房產
      公開課

      藝術要聞

      這本書法,80%的人無法讀懂!網友直言:看到第二字就傻眼!

      手機要聞

      年后大戰一觸即發,vivo、OPPO、小米全在路上

      50歲女性過冬穿搭:有大衣和羽絨服就夠了,簡約從容才是優雅

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版