![]()
即日起,智譜AI輸入法面向所有用戶開放。
據(jù)IPO早知道消息,智譜于12月10日正式發(fā)布并開源GLM-ASR系列語音識別模型,并推出基于該系列模型打造的桌面端智譜AI輸入法。
智譜指出,其希望讓用戶真正做到“動動嘴,活就干了”,從“把話變成字”走向“直接用語音完成任務(wù)”。
作為智譜新一代語音識別模型,GLM-ASR-2512支持將語音實時轉(zhuǎn)換為文字。在多場景、多語種、多口音的真實復(fù)雜環(huán)境測試中,保持行業(yè)領(lǐng)先的識別表現(xiàn),字符錯誤率(CER)僅為0.0717。
![]()
在此基礎(chǔ)上,智譜開源了GLM-ASR-Nano-2512。這是一個1.5B參數(shù)的端側(cè)模型,卻取得了當(dāng)前開源語音識別方向的SOTA表現(xiàn),并在部分測試中優(yōu)于若干閉源模型。它將識別能力壓縮到本地運行,在保證高精度的同時,實現(xiàn)更強(qiáng)的隱私保護(hù)與更低的交互延遲。
基于上述模型能力,智譜正式上線智譜AI輸入法,讓用戶在PC端用語音絲滑交互。用戶不但可以實現(xiàn)精準(zhǔn)的語音轉(zhuǎn)文字,還可以實現(xiàn)翻譯、改寫等智能操作,真正實現(xiàn)“指尖即模型,語音即指令”。具體而言:
智譜AI輸入法基于GLM-ASR系列模型打造,讓用戶在電腦端用語音絲滑交互。用戶不僅可以實現(xiàn)精準(zhǔn)的語音轉(zhuǎn)文字,還可以在輸入法中直接調(diào)用大模型能力,完成翻譯、改寫、情緒轉(zhuǎn)化等操作,實現(xiàn)“指尖即模型,語音即指令”。
所選即所改,從聽寫到改寫的一體化:傳統(tǒng)輸入法只負(fù)責(zé)打字,而智譜AI輸入法直接調(diào)用底層GLM模型幫助用戶翻譯、擴(kuò)寫、精簡屏幕上的任意一段文字,同時完成智能潤色,讓輸出更加自然、通順。整個過程在輸入框內(nèi)完成,實現(xiàn)“理解-執(zhí)行-替換”一體化,無需在多個應(yīng)用間反復(fù)切換。
千人千面人設(shè)切換:支持設(shè)置不同“人設(shè)”風(fēng)格,實現(xiàn)同一句話在不同場景下的不同表達(dá)。例如,在工作場景中,選擇“面對老板”,口語化的碎碎念瞬間轉(zhuǎn)化為邏輯嚴(yán)謹(jǐn)、條理清晰的工作匯報;在生活場景中,切換至“面對伴侶”,文字則變得溫柔俏皮,貼近日常聊天語境。
Vibe Coding(語感編程)搭子:針對開發(fā)者,智譜特別推出了Vibe Coding體驗,并與智譜Coding Plan賬號打通。結(jié)合多語言支持與代碼理解能力,開發(fā)者可以通過語音快速輸入代碼邏輯和注釋、查找遺忘的Linux指令、用自然語言指揮AI完成復(fù)雜數(shù)學(xué)計算或腳本編寫。同樣,設(shè)計師也可以從傳統(tǒng)的“用手摳圖”過渡到“用嘴做設(shè)計”。
耳語捕捉與高效熱詞:針對開放式辦公室、圖書館等公共場景,智譜優(yōu)化了對微弱聲音的捕捉能力,并區(qū)分環(huán)境噪聲。只需輕聲說話,即可精準(zhǔn)轉(zhuǎn)為文字,解決公共場合“不好意思用語音輸入”的痛點。同時,支持用戶一鍵導(dǎo)入專屬詞匯、項目代號(如AutoGLM)及生僻人名、地名等。只需在設(shè)置中添加一次。
即日起,智譜AI輸入法面向所有用戶開放。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.