<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      谷歌翻譯在這類句子上翻車47%,多語言混用成NLP死結(jié)

      0
      分享至

      印度程序員發(fā)一條消息,前半句是泰米爾語,后半句突然切英語。菲律賓客服接電話,他加祿語和英語交替蹦出。這種日常場景里,傳統(tǒng)自然語言處理(NLP)系統(tǒng)的準(zhǔn)確率會暴跌到什么地步?谷歌2021年的內(nèi)部測試顯示,代碼混用(Code-Mixing)場景下的語言識別錯誤率高達(dá)47%,而單語言場景只有3%。

      這不是邊緣案例。全球超過半數(shù)人口日常使用兩種及以上語言,代碼混用是常態(tài),不是異常。但大多數(shù)NLP系統(tǒng)的設(shè)計前提,恰恰是"一句話一種語言"。

      為什么人會混著說話

      語言切換從來不是隨機(jī)行為。Kishorekumar在分析中舉了一個典型例子:"Inniku meeting iruku but I didn't prepare."(今天有會,但我沒準(zhǔn)備。)前半句泰米爾語,后半句英語,切換點卡在"but"這個轉(zhuǎn)折詞上。

      這種切換通常發(fā)生在三個節(jié)點:概念缺失(目標(biāo)語言沒有對應(yīng)詞匯)、社交身份標(biāo)記(向特定群體示好)、以及情感強(qiáng)度變化(用母語罵臟話更解氣)。多語言社會的使用者不是" defective monolinguals "(有缺陷的單語者),而是發(fā)展出了一套高效的溝通策略。

      問題是,這套策略對機(jī)器來說像加密通話。

      NLP系統(tǒng)的三重崩潰

      第一重:語言邊界模糊

      標(biāo)準(zhǔn)語言識別模型假設(shè)輸入是"純凈"的。但代碼混用文本里,詞級別、甚至字符級別都在跳語言。泰米爾語"iruku"(有)和英語"meeting"擠在同一個句法結(jié)構(gòu)里,傳統(tǒng)基于n-gram的檢測器會直接死機(jī)。

      第二重:標(biāo)注成本爆炸

      單語語料已經(jīng)夠貴了。低資源語言的標(biāo)注單價可能是英語的5-10倍,因為需要母語者參與。代碼混用語料更麻煩:標(biāo)注者本身必須是平衡雙語者,能判斷每個詞的歸屬,還要處理語法雜交的灰色地帶。一個句子的標(biāo)注成本可能翻3倍,而可用人才池縮小90%。

      第三重:語法規(guī)則失效

      "Na late ah varuven, don't start without me."(我會遲到,別先開始。)這句混合了泰米爾語的助詞結(jié)構(gòu)"ah"和英語的祈使句。它不符合任何單一語言的語法規(guī)范,但又完全可理解。基于規(guī)則的傳統(tǒng)解析器在這里毫無用武之地,而神經(jīng)網(wǎng)絡(luò)也得從頭學(xué)一套非標(biāo)準(zhǔn)的統(tǒng)計規(guī)律。

      現(xiàn)有解法都在打補(bǔ)丁

      學(xué)術(shù)界的主流應(yīng)對策略是分而治之:先做語言識別,再切分片段,最后分別處理。但這套流程在2019年的一篇論文中被證明有根本缺陷——代碼混用的核心恰恰在于"不可切分",語言切換往往發(fā)生在短語內(nèi)部,而不是句間邊界。

      端到端模型是另一條路。2022年的幾項研究顯示,用多語言預(yù)訓(xùn)練模型(如mBERT、XLM-R)直接喂代碼混用數(shù)據(jù),比流水線方案提升約15%的F1分?jǐn)?shù)。但代價是:需要十倍以上的訓(xùn)練數(shù)據(jù),且對未見過的語言組合泛化能力極差。

      最務(wù)實的方案可能是"擁抱混亂"。一些語音助手廠商開始收集真實的代碼混用對話,不再追求完美的語言標(biāo)簽,而是直接優(yōu)化下游任務(wù)(意圖識別、槽位填充)的準(zhǔn)確率。準(zhǔn)確率數(shù)字不好看,但用戶滿意度反而上升——因為系統(tǒng)終于"聽懂"了人話。

      一個被忽視的數(shù)據(jù)點

      2023年,WhatsApp在印度推出AI貼紙功能時,內(nèi)部測試發(fā)現(xiàn)一個反直覺現(xiàn)象:代碼混用程度越高的用戶群體,對AI功能的采納率反而越低。不是因為他們不需要,而是因為早期的NLU(自然語言理解)模型在他們的對話上表現(xiàn)太差,導(dǎo)致信任崩塌。

      這個群體占印度智能手機(jī)用戶的62%。

      多語言混用不是技術(shù)債務(wù),是設(shè)計債務(wù)——系統(tǒng)架構(gòu)從一開始就沒把真實用戶放進(jìn)來?,F(xiàn)在的問題是:當(dāng)你的目標(biāo)市場一半以上人口這樣說話時,"支持多語言"到底意味著什么?是支持100種語言各自為政,還是支持一個人在一句話里自由切換?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      吉林省紀(jì)委監(jiān)委通報:黃正杰被查

      吉林省紀(jì)委監(jiān)委通報:黃正杰被查

      吉刻新聞
      2026-04-07 18:35:59
      比艷照門更轟動,曾經(jīng)的臺灣第一女主播璩美鳳

      比艷照門更轟動,曾經(jīng)的臺灣第一女主播璩美鳳

      霹靂炮
      2026-02-25 21:01:00
      特斯拉即將發(fā)布一款重磅車型,太猛了!

      特斯拉即將發(fā)布一款重磅車型,太猛了!

      花果科技
      2026-04-05 23:01:14
      一輛6年邁巴赫在邯鄲拍出49萬,11人爭搶!背后是面子還是剛需?

      一輛6年邁巴赫在邯鄲拍出49萬,11人爭搶!背后是面子還是剛需?

      河北關(guān)注
      2026-04-07 19:13:51
      民進(jìn)黨鼓吹開戰(zhàn)?鄭麗文抵達(dá)上海!“三個不要”直擊賴清德要害

      民進(jìn)黨鼓吹開戰(zhàn)?鄭麗文抵達(dá)上海!“三個不要”直擊賴清德要害

      薛小榮
      2026-04-07 17:11:35
      一鋤頭發(fā)現(xiàn)一窩!2025年青島大叔挖水溝竄出一窩,專家:非劇毒

      一鋤頭發(fā)現(xiàn)一窩!2025年青島大叔挖水溝竄出一窩,專家:非劇毒

      萬象硬核本尊
      2026-04-05 19:02:32
      嚴(yán)查電動車接送小孩!接娃怎么辦?國家新規(guī)定:把方便留給群眾!

      嚴(yán)查電動車接送小孩!接娃怎么辦?國家新規(guī)定:把方便留給群眾!

      朝子亥
      2026-04-07 16:15:03
      男人的生理需求能有多難忍?網(wǎng)友:我對我老公只有動物本能

      男人的生理需求能有多難忍?網(wǎng)友:我對我老公只有動物本能

      帶你感受人間冷暖
      2026-02-07 03:58:56
      超越比亞迪閃充 吉利900V神盾金磚電池實測8分42秒充至97%

      超越比亞迪閃充 吉利900V神盾金磚電池實測8分42秒充至97%

      快科技
      2026-04-07 16:19:06
      伊朗對美以發(fā)動第99波打擊

      伊朗對美以發(fā)動第99波打擊

      界面新聞
      2026-04-07 18:30:16
      娃哈哈百億遺產(chǎn)迎來大反轉(zhuǎn)!宗馥莉攜弟妹掃墓,真不斗了?

      娃哈哈百億遺產(chǎn)迎來大反轉(zhuǎn)!宗馥莉攜弟妹掃墓,真不斗了?

      雷科技
      2026-04-07 16:03:37
      長汀車輛墜河5人遇難,發(fā)生了什么?

      長汀車輛墜河5人遇難,發(fā)生了什么?

      中國新聞周刊
      2026-04-07 15:56:54
      人類首次拍到月球東方海!隱藏背面38億年,宇航員:完全超乎想象

      人類首次拍到月球東方海!隱藏背面38億年,宇航員:完全超乎想象

      基斯默默
      2026-04-06 21:08:53
      15年后,全網(wǎng)封神的“犀利哥”程國榮,早已死在了那場流量狂歡里

      15年后,全網(wǎng)封神的“犀利哥”程國榮,早已死在了那場流量狂歡里

      杰絲聊古今
      2026-04-05 18:52:02
      攤牌了?勇士潛在3換1交易,巴特勒或成犧牲品,庫卡欲聯(lián)手沖冠

      攤牌了?勇士潛在3換1交易,巴特勒或成犧牲品,庫卡欲聯(lián)手沖冠

      毒舌NBA
      2026-04-07 09:07:23
      新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

      新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

      呼吸科大夫胡洋
      2026-02-22 11:39:12
      新空腹血糖標(biāo)準(zhǔn)已調(diào)整,不再6.1mmol/L,糖前期者,早知早管控

      新空腹血糖標(biāo)準(zhǔn)已調(diào)整,不再6.1mmol/L,糖前期者,早知早管控

      觀星賞月
      2026-04-07 16:49:02
      上海二胎家庭真相:不是多雙筷子,是全家資源被掏空的一場硬仗

      上海二胎家庭真相:不是多雙筷子,是全家資源被掏空的一場硬仗

      復(fù)轉(zhuǎn)這些年
      2026-04-07 12:25:34
      一場戰(zhàn)爭徹底把中國打醒!美軍作戰(zhàn)最毒的是什么?中國用30年看清

      一場戰(zhàn)爭徹底把中國打醒!美軍作戰(zhàn)最毒的是什么?中國用30年看清

      嫹筆牂牂
      2026-04-07 14:51:29
      明天傍晚北京將迎雨水,后天氣溫大降

      明天傍晚北京將迎雨水,后天氣溫大降

      北青網(wǎng)-北京青年報
      2026-04-07 12:41:12
      2026-04-07 20:20:49
      賽博蘭博
      賽博蘭博
      專注搗鼓AI效率工具,試圖在這個時代留下數(shù)字分身的探索者。
      899文章數(shù) 10關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      英媒:伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

      頭條要聞

      英媒:伊朗最高領(lǐng)袖病重昏迷 無法參與任何國家決策

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      健康
      藝術(shù)
      房產(chǎn)
      手機(jī)
      公開課

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      藝術(shù)要聞

      美麗風(fēng)光看不盡

      房產(chǎn)要聞

      猛料!又有世界500強(qiáng)級巨頭,低調(diào)買入海棠灣!

      手機(jī)要聞

      華為暢享90 Pro Max升級鴻蒙6.0.0.138 SP23,新增HiCar互聯(lián)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版