![]()
Fahmi Ruddin Hidayat/iStock
來源:IEEE電氣電子工程師學(xué)會
This article is part of our exclusive IEEE Journal Watch series in partnership with IEEE Xplore:https://spectrum.ieee.org/tag/ieee-xplore。
幾年前,在機器翻譯等任務(wù)上,人類的表現(xiàn)明顯優(yōu)于機器學(xué)習(xí)算法。但如今,兩者之間曾經(jīng)清晰的能力界限正在變得模糊。
在最近一項研究中,研究人員將多款大語言模型(LLM)的翻譯能力與專業(yè)人類譯者進行對比,結(jié)果發(fā)現(xiàn):只有擁有10年及以上經(jīng)驗的持證專家,才能明顯超越這些模型。而在某些翻譯維度上,模型表現(xiàn)反而優(yōu)于人類。該研究成果已于12月15日發(fā)表在《IEEE大數(shù)據(jù)匯刊》上:https://ieeexplore.ieee.org/document/11300973。
中國杭州西湖大學(xué)工學(xué)院副院長Yue Zhang指出,過去二十年間,機器學(xué)習(xí)算法的能力發(fā)生了“重大范式轉(zhuǎn)變”,并特別提到新一代大語言模型的性能實現(xiàn)了巨大飛躍。但這些模型在翻譯任務(wù)上的實際表現(xiàn)究竟如何?
他表示:“盡管過去已有模型宣稱達到‘人類水平’,但相關(guān)結(jié)論一直存在爭議。我們希望跳出模糊的對比,用更科學(xué)的方式,把大語言模型的表現(xiàn)和不同層級的專業(yè)譯員做對標(biāo) —— 從初級到資深譯員逐一校準(zhǔn)。”
在該研究中,譯員等級定義如下:
初級譯員:擁有1–2年翻譯行業(yè)經(jīng)驗
中級譯員:擁有3–5年翻譯經(jīng)驗,或為目標(biāo)語言母語者
資深譯員:至少10年翻譯經(jīng)驗,且持有中國翻譯專業(yè)資格(水平)考試(CATTI) 權(quán)威證書 —— 這是中國翻譯領(lǐng)域的國家級標(biāo)準(zhǔn)。
研究人員讓人類譯者與包括GPT-4、ALMA-R、Deepseek-R1在內(nèi)的大語言模型,對同一批文本樣本進行翻譯。團隊聘請了6名專業(yè)標(biāo)注人員對譯文質(zhì)量進行評估,且評估過程中不知道哪些譯文來自人類、哪些來自模型。
研究要求兩組對象完成多種語對翻譯,既有中英這類常見語對,也包括中-印地語這類相對少見的語對。
結(jié)果顯示,GPT-4的翻譯能力已與初級、中級人類譯者相當(dāng)。Yue Zhang指出,這很可能是人類歷史上首次有算法在翻譯質(zhì)量上達到了人類水平。
在包含約200個句子的文本段落翻譯測試中,研究覆蓋8組語言對。
GPT-4平均出現(xiàn)3.71處重大翻譯錯誤
初級譯員平均3.27處
中級譯員平均3.30處
資深譯員譯文質(zhì)量最高,平均僅1.83處重大錯誤
在處理小語種/冷門語對(如中譯印地語)時,人類與模型的錯誤率都明顯上升。
不過,人類與模型的錯誤類型截然不同:大語言模型有時會過于直譯、生硬。人類則相反,在面對模糊、歧義表述時,容易過度腦補、自行補全含義。例如,研究中一名人類譯者把短語entering his second year錯誤理解為“嬰兒滿兩歲”,而原文實際是在描述進入第二年的運動員。Yue Zhang評價道:“這既是人類譯者的優(yōu)勢,也是短板。”
研究顯示,人類譯者比大語言模型更容易出現(xiàn)過度解讀類錯誤。但正是這種對語言語境的深度理解能力,也讓資深譯員能夠精準(zhǔn)處理更細膩、更有隱含意義的文本片段。Yue Zhang表示,在需要高精度、文化適配或復(fù)雜創(chuàng)意解讀的任務(wù)(如文學(xué)作品)中,資深人類譯者仍然不可或缺。但他同時指出,已有初步跡象表明這一局面正在改變。
他提到,在研究中:“深度推理模型DeepSeek R1尤其擅長避免重大翻譯錯誤,這意味著具備推理能力的模型(如OpenAI o1、GPT-5、DeepSeek v3.2),或許是縮小與資深人類譯者差距的關(guān)鍵。”
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.