<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港科大聯合騰訊微信、北大發布首個大一統框架 Audio-Omni

      0
      分享至



      近年來,隨著多模態大模型的飛速發展,視覺領域(如圖像、視頻)的「理解 - 生成 - 編輯」大一統模型不斷涌現。然而,在聲音的物理世界中,音頻模型卻依然處于各自為戰的狀態:

      現有的音頻大模型往往局限于單一任務(只能理解,或只能生成),或者受限于特定領域(做語音的處理不了音樂,做音樂的處理不了環境音)。與此同時,音頻編輯(Audio Editing)更是因為極其匱乏大規模、高質量的指令數據集,遲遲難以實現突破。

      面對這一長期存在的技術難題,香港科技大學、騰訊微信視覺團隊與北京大學的研究人員提出了一種全新的解耦框架 ——Audio-Omni。這是業界首個在統一框架下,同時支持通用聲音、音樂、語音三大領域的理解、生成與編輯的全能型多模態模型。

      Audio-Omni 巧妙地將凍結的多模態大模型(MLLM)的強大推理能力,與可訓練的擴散生成器(DiT)的高保真合成能力完美結合。更重要的是,由于繼承了 MLLM 豐富的世界知識,Audio-Omni 展現出了眾多專家音頻模型難以實現的「涌現能力」。

      目前,該研究成果已被頂級學術會議 SIGGRAPH 2026 接收,項目已開源。





      An overview of the Audio-Omni framework and its capabilities.

      • 項目主頁:https://zeyuet.github.io/Audio-Omni/
      • 論文地址:https://arxiv.org/pdf/2604.10708
      • 開源代碼:https://github.com/ZeyueT/Audio-Omni
      • 開源模型:https://huggingface.co/HKUSTAudio/Audio-Omni

      效果展示

      無論是基礎的跨模態生成,還是精細的指令編輯,亦或是復雜的邏輯推理,Audio-Omni 都能在單一模型中輕松搞定。

      1. 多模態音頻生成

      在常規生成任務上,Audio-Omni 在多個基準測試中達到 SoTA 水平,支持多種模態控制:

      • 文生音頻 (T2A)

      A telephone dials twice, followed by the sound of glass shattering.



      • 文生音樂 (T2M)

      Compose a bright jazz swing instrumental with walking bass, brushed drums, and a lively horn melody.



      Create a cheerful acoustic folk song accompaniment with strummed guitar, light percussion, and a whistling-style lead melody.



      • 視頻配音 (V2A)



      視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

      • 視頻配樂 (V2M)



      視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

      • 文本到語音合成 (TTS)

      The alchemist erased the circle in the sand, and the snake slithered away among the rocks.



      2. 指令級靈活音頻編輯

      前 10s 是輸入音頻,后 10s 是編輯后的結果:

      • 添加 (Add):在原有場景音中自然融入新元素。

      Prompt: Add the sound of'skateboarding' to the input audio.



      Input



      Output



      • 移除 (Remove):剝離環境中的指定聲音。

      Prompt: Remove the sound of 'female singing' from the input audio.



      Input



      Output



      • 提取 (Extract):精準提取混音中的特定聲源。

      Prompt: Extract the sound of 'ambulance siren' from the input audio.



      Input



      Output



      • 風格遷移 (Style Transfer):改變物體的音色或整體環境風格,同時精準保留原始音頻的時序節奏與音高(Pitch)走向。

      Prompt: Change the sound of 'dog barking' to 'hammering'.



      Input



      Output



      Prompt: Change the sound of 'playing electric guitar' to 'playing saxophone'.







      3. MLLM 賦予的「繼承能力」(Inherited Capabilities)

      得益于獨特的架構設計,Audio-Omni 完美繼承了凍結的 MLLM 內部的世界知識,展現出了傳統音頻生成模型難以具備的推理與認知能力

      • 知識增強生成(Knowledge-Augmented Generation)

      當你在提示詞里寫下「齊柏林飛艇(Led Zeppelin)樂隊的 John Bonham 所演奏樂器的聲音」 時,大多數常規模型會因為缺乏對應文本與音頻的直接配對而生成失敗。但 Audio-Omni 能夠自行推理出該樂器是「架子鼓」,并直接合成出極具辨識度的硬核鼓點!

      Prompt:The sound of the instrument that John Bonham played in Led Zeppelin.



      • 上下文生成(In-Context Generation)

      給定一段簡單的鋼琴錄音,并輸入指令「生成一段不斷累積緊張感的電影配樂」,模型能精準提取原音頻的音色,并創作出全新的旋律。

      • 零樣本跨語言控制(Cross-Lingual Control)

      盡管模型訓練時主要使用英文指令,但由于 MLLM 的多語言底子,你可以直接用中文、法語、德語、日語輸入指令,Audio-Omni 依然能生成毫不遜色的高保真音頻。



      4. 自然解鎖的零樣本語音生成

      通過訓練時的掩碼(Masking)策略,Audio-Omni 可以在不進行特定任務微調的情況下,直接解鎖零樣本音色轉換以及語音編輯能力



      架構揭秘:High/Low Level 混合條件控制策略

      讓一個模型同時勝任「理解、生成、編輯」和「音、樂、語」所有領域,最大的挑戰在于如何處理復雜且存在差異的控制信號。單純的交叉注意力(Cross-Attention)無法做到高精度對齊,而全部拼接(Concatenation)又會破壞語言模型的語義空間。

      為此,研究團隊提出了一種優雅的解耦架構與雙流混合條件策略(Hybrid Conditioning Strategy)



      1. 理解核心:采用凍結的預訓練多模態大模型(Qwen2.5-Omni-3B),保留其所有的世界知識和推理能力。

      2. 生成核心:一個具有 3B 參數的可訓練擴散生成器(DiT),結合 Rectified Flow 目標函數負責高保真音頻合成。

      3. 混合條件注入

      • 高層語義流(High-Level Semantic stream):包含 MLLM 提取的多模態特征和轉錄文本。這些特征被當作全局指令向導,通過交叉注意力(Cross-attention)注入 DiT,賦予模型極大的語義靈活度。
      • 底層信號流(Low-Level Signal stream):包含 Mel 頻譜特征(用于音色 / 編輯參考)和視頻同步特征(用于音畫對齊)。這些特征與輸入的噪聲隱變量進行通道級拼接(Channel-wise Concatenation),從而為模型注入細粒度的時序約束,實現對生成內容的高精度對齊與結構把控。

      這一「宏觀靠注意力,微觀靠拼接」的設計,徹底打通了音頻全能生成的壁壘。另外,為了激發上述的零樣本語音能力,團隊在訓練階段對語音提示詞的 Mel 頻譜進行隨機掩碼,逼迫模型學會從上下文中推理音色和內容,從而自然習得了音色轉換和語音編輯能力。

      數據破局:

      構建百萬級指令音頻編輯數據集 AudioEdit

      在視覺領域,大規模數據集徹底引爆了圖像編輯;而在音頻領域,長期缺乏這樣的指令成對數據。目前基于合成的管線往往存在明顯的「合成感」,難以應對真實世界的復雜聲學環境。

      研究團隊為此構建了包含超 100 萬高質量樣本的指令音頻編輯數據集 ——AudioEdit



      數據處理流水線圖

      為了兼顧數據的真實聲學保真度與超大規模多樣性,團隊設計了雙管齊下的混合流水線:

      • 真實數據挖掘分支(Real Data Branch):從 VGGSound 等真實世界視頻入手,利用大模型(Gemini 2.5 Pro)識別核心發聲物,并調用最新的 SAM-Audio 進行精準音源分離(Source Separation)。通過嚴格的多階段 VAD 和 CLAP 語義對齊過濾,提取出極其純凈的「原始 - 編輯」音頻對。
      • 程序化合成數據分支(Synthesis Data Branch):利用 Scaper 工具包,將不同的前景音和背景音進行音高、時長、信噪比的隨機混合,批量制造大規模的精準標注數據。

      在 AudioEdit 的加持下,Audio-Omni 擁有了能夠應對多項音頻編輯任務的能力。

      Insight:

      最后一層特征未必更適合跨模態合成

      在探索 MLLM 與 DiT 的連接方式時,研究團隊進行了一系列消融實驗,并得出了一個極具啟發性的結論:

      對于音頻生成任務,直接使用 MLLM 最后一層(Last Layer, -1)或復雜的 Query 機制效果并不理想,反而使用倒數第二層(Penultimate Layer, -2)的特征,能取得顯著更優的表現。



      團隊深入分析認為:MLLM 的最后一層特征為了迎合下一詞預測(Next-token prediction)的訓練目標,往往變得過于「文本特化」,在這個過程中,大量豐富的、未壓縮的聲學細節和視覺語義被丟棄了。

      而倒數第二層則像一個原生態的信息蓄水池,它既完成了高度抽象的語義理解,又保留了足以讓 DiT 合成高保真音頻的密集底層細節。這也揭示了:在將 LLM 接入高保真生成模型時,避免底層信息的丟失比設計復雜的注意力查詢機制更為關鍵。

      項目已開源

      Audio-Omni 已在 GitHub 和 Hugging Face 上開源,包括代碼和模型權重。開源以來,Audio-Omni 在Hugging Face 全模態(Any-to-Any)模型熱榜(https://huggingface.co/models?pipeline_tag=any-to-any)上持續位列Top 5,受到了社區的廣泛關注與好評。



      結語

      Audio-Omni 的問世,證明了通過單一框架解決跨域音頻任務的可行性,打破了理解、生成和編輯之間的技術壁壘。其展現出的強大推理與零樣本控制能力,為后續工作提供了未來通用生成式音頻人工智能(Universal Generative Audio Intelligence)的演進方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      來感受一下黃仁勛的絕望

      來感受一下黃仁勛的絕望

      智先生
      2026-04-25 21:03:53
      近千年歷史證明:當大陸實力處于絕對優勢時,日本沒有一點機會!

      近千年歷史證明:當大陸實力處于絕對優勢時,日本沒有一點機會!

      鶴羽說個事
      2026-04-25 22:47:11
      亞歷山大42+4+8+半場百發百中,太陽雙子星打鐵,雷霆3-0比肩湖人

      亞歷山大42+4+8+半場百發百中,太陽雙子星打鐵,雷霆3-0比肩湖人

      釘釘陌上花開
      2026-04-26 06:03:19
      3連鞭,8-5!趙心童二階段不敗,丁俊暉單局0分,小特3-1領先瓦菲

      3連鞭,8-5!趙心童二階段不敗,丁俊暉單局0分,小特3-1領先瓦菲

      劉姚堯的文字城堡
      2026-04-25 23:28:20
      足壇一夜動態:拜仁驚天逆轉,巴薩9連勝領跑,曼城劍指三冠王

      足壇一夜動態:拜仁驚天逆轉,巴薩9連勝領跑,曼城劍指三冠王

      釘釘陌上花開
      2026-04-26 06:19:36
      普京罕見讓步,中國了結30年心愿!日本徹底慌了,高市遣使求饒

      普京罕見讓步,中國了結30年心愿!日本徹底慌了,高市遣使求饒

      玲兒愛唱歌
      2026-04-26 04:35:57
      山姆“爆雷”,3億中產炸了!

      山姆“爆雷”,3億中產炸了!

      新零售參考Pro
      2026-04-23 16:31:50
      離異帶娃、擠走總統長女的漢南洞夫人,原來還沒嫁進豪門啊!

      離異帶娃、擠走總統長女的漢南洞夫人,原來還沒嫁進豪門啊!

      新浪財經
      2026-04-25 23:08:48
      天津4-2 贏球不可怕 可怕的是于根偉賽后一席話 兩三個人都拼到抽筋

      天津4-2 贏球不可怕 可怕的是于根偉賽后一席話 兩三個人都拼到抽筋

      劉哥談體育
      2026-04-26 03:12:41
      以色列,突然發動襲擊!

      以色列,突然發動襲擊!

      每日經濟新聞
      2026-04-25 23:31:10
      別再尬演白月光!頂著大刀雙眼皮一臉疲態,這能讓男人念念不忘?

      別再尬演白月光!頂著大刀雙眼皮一臉疲態,這能讓男人念念不忘?

      攬星河的筆記
      2026-04-25 15:08:35
      虎狼之詞啊!一公共女廁提示走紅網絡,“屙尿時對準坑位”引熱議

      虎狼之詞啊!一公共女廁提示走紅網絡,“屙尿時對準坑位”引熱議

      火山詩話
      2026-04-25 06:12:02
      為什么你的電量焦慮出國就消失?

      為什么你的電量焦慮出國就消失?

      晚風也遺憾
      2026-04-24 09:04:51
      演都不演了!電詐園松口放人前,先提了一個要求,父親察覺不對勁

      演都不演了!電詐園松口放人前,先提了一個要求,父親察覺不對勁

      八斗小先生
      2026-04-25 13:55:54
      把孫楊請來參加《妻子的浪漫旅行2026》的人,可真是一個天才!

      把孫楊請來參加《妻子的浪漫旅行2026》的人,可真是一個天才!

      八卦南風
      2026-04-25 10:26:26
      死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

      死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

      風干迷茫人
      2026-04-24 16:01:23
      伊朗:兩艘被扣貨船中一艘涉嫌與美軍合作

      伊朗:兩艘被扣貨船中一艘涉嫌與美軍合作

      環球網資訊
      2026-04-25 06:11:10
      曝克洛普同意入主皇馬!要求清洗 6 大主力,鎖定 3 大王牌

      曝克洛普同意入主皇馬!要求清洗 6 大主力,鎖定 3 大王牌

      奶蓋熊本熊
      2026-04-26 01:07:27
      觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

      觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

      番外行
      2026-04-24 08:59:12
      正式簽約!加盟雄鹿!字母哥被孤立

      正式簽約!加盟雄鹿!字母哥被孤立

      籃球教學論壇
      2026-04-25 16:29:48
      2026-04-26 07:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142636關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      房產
      游戲
      家居
      手機
      本地

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      金發美少女魔王和我是鄰居!新游首曝美女角色太吸睛

      家居要聞

      自然肌理 溫潤美學

      手機要聞

      停更一年憋大招!小米大折疊攜玄戒O3回歸,系統也是新的

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩欧美卡一卡二卡新区| 二区三区国产在线观看| 中文区中文字幕免费看| 国产成人综合在线女婷五月99播放| 极品少妇的粉嫩小泬视频| 996久久国产精品线观看导航| 国产精品天天在线午夜更新| 国产真实乱人偷精品视频| 欧美VA| 精品国产乱码久久久久夜深人妻| 午夜精品视频在线看| 成人午夜AV| 米脂县| 岛国熟女一区二区三区| 亚洲天堂免费看片资源| 久久久精品人妻一区二区三区| 国产熟女亚洲精品麻豆| 牡丹江市| 成人亚洲一区无码久久| 日韩精品无码一区二区三区| 公主岭市| 一区一区三区产品乱码| 亚洲乱码日产精品bd在线下载| 国产午夜免费啪视频观看视频| 各种姿势玩小处雏女视频 | 日本丰满护士bbw| 亚洲乱码中文字幕综合| 国产成人亚洲综合无码精品| 永久免费看mv网站入口| 亚洲天堂在线播放| 91肉丝酒店高跟91肉丝酒店高跟| 久久凹凸视频| 永久黄片| 日韩精品亚洲 国产| 丝袜高潮流白浆潮喷在线播放 | 日韩在线不卡免费视频一区 | 亚洲a∨无码无在线观看| 日韩精品无码人妻一区二区三区| 精品久久久久久久久午夜福利| 日韩人妻熟女中文字幕a美景之屋| 狠狠躁日日躁夜夜躁欧美老妇|