<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Qwen3.5 還有高手,全模態(tài)大模型來了,實測很強

      0
      分享至

      兄弟們,Qwen3.5 系列我寫過十幾篇了,涉及簡介、測評、本地部署、微調等等


      本來以為可以收手了,沒想到還有高手!

      它就是全面超越 Gemini 3.1 Pro 的全模態(tài)大模型——Qwen3.5-Omni

      簡介

      Qwen3.5-Omni 是 Qwen3-Omni 的全面進化版,真正把“看、聽、說、想”放進同一套開源底座里的模型,在海量文本、視覺,以及超過 1 億小時的音視頻數(shù)據(jù)上進行原生多模態(tài)預訓練,支持文本、圖片、音頻、音視 頻全模態(tài)理解與生成。

      幾個關鍵數(shù)字:

      • 256k 超長上下文 ,可支持超過 10 小時 的音頻理解

      • 支持超過 400 秒的 720P 音視頻 對話

      • 113 種語種和方言 語音識別, 36 種語種和方言 語音生成

      • 音頻/音視頻的理解、推理和交互任務上取得了 215 項 子任務 / Benchmark 的 SOTA

      根據(jù)官方披露的數(shù)據(jù),Qwen3.5-Omni-Plus 在通用音頻理解、推理、識別、翻譯、對話能力上全面超越了 Gemini 3.1 Pro,在多語言語音識別/生成上也顯著優(yōu)于 Gemini 3.1 Pro,215 項音頻/音視頻子任務達到 SOTA 成績。


      這次 Qwen3.5-Omni 分 Plus / Flash / Light 三檔:

      版本

      定位

      Plus

      旗艦,音頻/音視頻理解 215 項 SOTA,對標頂級商業(yè)模型

      Flash

      平衡,速度與能力折中

      Light

      輕量,適合資源受限或高并發(fā)場景

      API 接入分兩種:離線 API(文件級批量處理)和實時 API(流式語音對話、實時交互),根據(jù)場景選就行。

      實測 1、音頻理解

      輸入音頻讓其轉錄成字幕,實測有些錯別字,這點是任何模型都不可避免的,比如這個老張/老章。


      我之前用剪映做字幕,那是相當難受,先語音識別,再導出字幕文件用本地編輯器打開(剪映自帶的操作太難受了),逐個修改錯別字。

      有了 Qwen 3.5-Omni-Plus 我感覺完全可以這樣:先用它錄音轉錄成字幕,然后把口播稿給它,修復其中所有錯別字,識別錯誤之處,然后給出的就是完美字幕文件了。

      2、超長音頻轉錄

      Qwen 3.5-Omni-Plus超過 10 小時的音頻輸入,這有點太誘人了,又臭又長的會議錄音有救了。但是網(wǎng)頁端處理不了,好在阿里云百煉平臺提供了 API,調用方式與之前一致。

      我拿最近特別火的張小珺 7 小時馬拉松對話做測試


      用我的 B 站音、視頻下載 skills 將其下載,抽取 MP3 音頻


      我寫了一個腳本,用 Qwen3.5-Omni-Plus 將其完整,一口氣把這個將近 7 個小時的 MP3 轉成文字稿


      # 代碼太長了,僅展示一下提示詞

      PROMPT = (
      "請將這段音頻完整逐字轉錄為文字稿。要求:\n"
      "1. 保留所有對話內(nèi)容,不要遺漏或概括\n"
      "2. 標注不同說話人(如 說話人A、說話人B)\n"
      "3. 保留口語化表達、語氣詞\n"
      "4. 如果有明顯的話題轉換,用空行分隔"
      )

      結果如下,整整 14 萬字,如果加上一些提示詞會更好,比如人名:


      3、聯(lián)網(wǎng)搜索+工具調用+可變音色音頻輸出

      看簡介,Qwen 3.5-Omni-Plus 支持端到端語音控制,模型可以像人一樣遵循指令來對聲音的大小/語速/情緒等自由調節(jié);還支持音色克隆,可以上傳自己的聲音,定制 AI 的專屬音色。這個我很有興趣,大家看我的視頻配音,其實用的就是我的音色克隆,本地跑有點慢,不太穩(wěn)定,后面決定試試 Omni-Plus。

      但是,我更加感興趣的是它的原生聯(lián)網(wǎng)搜索支持與工具調用能力,加上輸出音頻的音色支持,完全可以復刻出一個大模型支持的智能音箱了(Qwen 3.5-Omni 有實時版本,也支持聯(lián)網(wǎng)搜索),事實上,我正在做這個,把我那臺要退休的 M1 Macmini 改造成支持語音喚醒的智能音響,大家靜待佳音。

      實際測試,它真的相當可以


      大家感受一下

      而且還可以切換音色

      4、語義打斷,視頻通話

      傳統(tǒng)語音助手有個經(jīng)典問題:你還沒說完,它就搶話了;或者背景有點噪音,它以為你在叫它。Qwen3.5-Omni 支持語義打斷,自動識別turn-talking意圖,模型可以精準判斷什么時候該接話,什么只是用戶無意識的附和、停頓或背景聲音。


      也支持視頻通話,我的 macmini 沒有攝像頭,所以沒有測試


      5、視頻理解

      整個活兒,雞湯來了的視頻,它是真實看懂了的,幾個問題它都能精準找到答案


      我確認了一下,看左下角時間軸,分秒不差


      我還給了它我最近的一個視頻讓其總結


      它對關鍵幀畫面的理解很不錯,而且對整理風格和內(nèi)容也有總結:


      6、圖像理解

      這個題目之前我測試過幾個號稱支持圖像輸入的旗艦大模型,都失敗了。

      Qwen3.5-Omni-Plus 表現(xiàn)的確實像真實看過的樣子


      意外發(fā)現(xiàn),它自帶 OCR 能力也相當可以,比如我常需要的 latex 公式識別


      它可以自動識別,并渲染


      然后它的 OCR 能力不輸專業(yè) OCR 大模型,比如我這張測試專用圖片


      核心內(nèi)容完成 get 到了,右下角那個表格也準確識別


      7、圖片生成

      這沒什么好說的,應該是全模態(tài)大模型的基本功了,我試了一個之前 Gemini 中用過的提示詞,Qwen3.5-Omni-Plus 表現(xiàn)也非常不錯,細節(jié)很多,人物也很自然。

      生圖之后還支持局部修改,這種精準 PS 級別的操作,確實可以


      8、文檔解析

      提示詞:把這個 PDF 完整解析成結構清晰的 markdown 文檔,翻譯成中文,doublecheck 翻譯質量,不要總結,不要遺漏

      意外的是,它出奇的快,幾乎是我按下 Enter 之后立即便開始輸出了


      對比了原文,質量也沒問題


      如何體驗 Qwen3.5-Omni

      官方提供兩個正式渠道:

      1. 阿里云百煉 :API 調用,離線 API 和實時 API 分別適合批量處理和流式交互場景

        ● 非實時:https://help.aliyun.com/zh/model-studio/qwen-omni

        ● 實時:https://help.aliyun.com/zh/model-studio/realtime

      2. Qwen Chat :網(wǎng)頁/App 端直接對話,上手最快 https://chat.qwen.ai/

      總結

      Qwen3.5-Omni 給我的整體感覺是,野心很大,完成度也不低。它真正有意思的地方,在于把文本、圖像、音頻、視頻、實時語音回復放進了同一個統(tǒng)一框架里,把多模態(tài)從"能看圖"推進到了"能聽音頻、看視頻、還能直接說話",解決統(tǒng)一底座問題,工程上更省拼裝成本。

      大模型世界很缺"圖像理解+音視頻理解 + 語音輸出"一體化底座,很多團隊只能自己拼ASR、VLM、TTS、Agent;人機交互也正在從鍵盤窗口走向攝像頭、麥克風、耳機、車機、眼鏡,一個統(tǒng)一模型把交互層、理解層、生成層接起來,產(chǎn)品形態(tài)會快很多。

      一旦跑順,能做的事情太多了:私有化會議助手、本地視頻問答、播客整理、素材打標、語音Agent、OCR + 多模態(tài)知識庫……這類能力對播客摘要、音頻檢索、會議記錄增強都有直接價值,很多人現(xiàn)在都盯著視頻理解和實時助手,我反而覺得 audio caption這條線后面很可能會跑出不少特別實用的場景。

      我判斷,未來一兩年 Omni 模型會成為很多設備助手和企業(yè)助手的默認底座,路線也很明確,后面會繼續(xù)往低延遲、更輕量推進。真正爆發(fā)的場景大概率在車載、教育、客服、內(nèi)容生產(chǎn)、個人知識管理這幾類持續(xù)聽、持續(xù)看、持續(xù)說的產(chǎn)品里。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      囂張!拼多多竟把執(zhí)法人員手指夾骨折。網(wǎng)友調侃:“砍一刀”不是白叫的,15 億罰輕了

      囂張!拼多多竟把執(zhí)法人員手指夾骨折。網(wǎng)友調侃:“砍一刀”不是白叫的,15 億罰輕了

      新浪財經(jīng)
      2026-04-20 07:43:33
      越南一把手很焦慮:和中國一對比,才知道原來我們落后了這么多

      越南一把手很焦慮:和中國一對比,才知道原來我們落后了這么多

      頭條爆料007
      2026-04-20 15:46:48
      突發(fā)!340億開源巨頭徹底撤離中國,419名頂級工程師被瘋搶,18年深耕終落幕…

      突發(fā)!340億開源巨頭徹底撤離中國,419名頂級工程師被瘋搶,18年深耕終落幕…

      新浪財經(jīng)
      2026-04-20 04:31:06
      美以狂轟濫炸一個月,伊朗改革派快被炸光了,剩下的全是不要命的

      美以狂轟濫炸一個月,伊朗改革派快被炸光了,剩下的全是不要命的

      仙味少女心
      2026-04-19 17:03:36
      一場119-84的狂勝,讓火箭湖人都感到絕望,掘金也徹底后悔了

      一場119-84的狂勝,讓火箭湖人都感到絕望,掘金也徹底后悔了

      毒舌NBA
      2026-04-20 07:51:44
      房子遭人強拆,因反抗坐3年牢!出獄后揚言:不贏官司就殺人!

      房子遭人強拆,因反抗坐3年牢!出獄后揚言:不贏官司就殺人!

      談史論天地
      2026-04-20 12:16:17
      5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

      5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

      另子維愛讀史
      2026-04-19 19:37:43
      強闖臺海后,高市再惹大禍,中朝聯(lián)合亮劍,解放軍現(xiàn)身日本家門口

      強闖臺海后,高市再惹大禍,中朝聯(lián)合亮劍,解放軍現(xiàn)身日本家門口

      基斯默默
      2026-04-20 15:41:02
      “3歲男童遭生父女友虐待致死案”,明日宣判

      “3歲男童遭生父女友虐待致死案”,明日宣判

      南方都市報
      2026-04-20 17:00:24
      剛剛,全線跳水!伊朗,突然宣布

      剛剛,全線跳水!伊朗,突然宣布

      中國基金報
      2026-04-20 16:23:10
      五預警齊發(fā)!雷暴大風、暴雨、冰雹……“組團”來襲!上海這天雨勢明顯

      五預警齊發(fā)!雷暴大風、暴雨、冰雹……“組團”來襲!上海這天雨勢明顯

      魯中晨報
      2026-04-20 11:12:11
      叛逃至我國級別最高的外國領導人:越南副主席黃文歡,結局如何?

      叛逃至我國級別最高的外國領導人:越南副主席黃文歡,結局如何?

      興趣知識
      2026-04-20 01:15:11
      罰15億!拼多多一員工故意關門,對抗調查,導致執(zhí)法人員手指骨折

      罰15億!拼多多一員工故意關門,對抗調查,導致執(zhí)法人員手指骨折

      魔都姐姐雜談
      2026-04-19 08:03:27
      聯(lián)合國:加沙3.8萬多名女性被以軍殺害

      聯(lián)合國:加沙3.8萬多名女性被以軍殺害

      參考消息
      2026-04-20 13:10:03
      深圳女子花7299元從國美電器買格力空調 用1年就異響,一看銘牌發(fā)現(xiàn)是“僵尸機” 交涉30多次才解決

      深圳女子花7299元從國美電器買格力空調 用1年就異響,一看銘牌發(fā)現(xiàn)是“僵尸機” 交涉30多次才解決

      信網(wǎng)
      2026-04-20 09:14:12
      美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關船只表示關切

      美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關船只表示關切

      澎湃新聞
      2026-04-20 15:42:26
      中央美院教授、油畫家葛鵬仁病逝,享年85歲

      中央美院教授、油畫家葛鵬仁病逝,享年85歲

      澎湃新聞
      2026-04-20 17:12:26
      大疆,少有人走過的路

      大疆,少有人走過的路

      智谷趨勢
      2026-04-15 11:48:17
      “按按鈕就行”:官媒的“大國工匠”是如何失誤的?

      “按按鈕就行”:官媒的“大國工匠”是如何失誤的?

      虔青
      2026-04-20 13:25:48
      美國在霍爾木茲截停中國油輪 中方回應

      美國在霍爾木茲截停中國油輪 中方回應

      極目新聞
      2026-04-20 15:50:46
      2026-04-20 19:52:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3337文章數(shù) 11137關注度
      往期回顧 全部

      科技要聞

      華為Pura90逆周期定價,4699元起,未漲價

      頭條要聞

      小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

      頭條要聞

      小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

      體育要聞

      阿森納已拼盡全力,但你早干嘛去了...

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經(jīng)要聞

      利潤暴跌7成,字節(jié)到底在做什么

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      數(shù)碼
      時尚
      本地
      親子
      軍事航空

      數(shù)碼要聞

      華為新內(nèi)存技術來了,Mate X7用戶6月有福

      今年最流行的衣服竟然是它?高級又氣質!

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      親子要聞

      上海首家兒童運動醫(yī)學中心成立,推行微創(chuàng)優(yōu)先、醫(yī)護康一體化服務

      軍事要聞

      特朗普:美艦向伊朗貨船開火炸出個洞

      無障礙瀏覽 進入關懷版