ChatGPT翻譯水平堪比普通譯員但10年以上經(jīng)驗專家仍優(yōu)于大模型

2026-02-13 18:34:53　來源: 人工智能學(xué)家

北京舉報

分享至

Fahmi Ruddin Hidayat/iStock

來源：IEEE電氣電子工程師學(xué)會

This article is part of our exclusive IEEE Journal Watch series in partnership with IEEE Xplore：https://spectrum.ieee.org/tag/ieee-xplore。

幾年前，在機器翻譯等任務(wù)上，人類的表現(xiàn)明顯優(yōu)于機器學(xué)習(xí)算法。但如今，兩者之間曾經(jīng)清晰的能力界限正在變得模糊。

在最近一項研究中，研究人員將多款大語言模型（LLM）的翻譯能力與專業(yè)人類譯者進行對比，結(jié)果發(fā)現(xiàn)：只有擁有10年及以上經(jīng)驗的持證專家，才能明顯超越這些模型。而在某些翻譯維度上，模型表現(xiàn)反而優(yōu)于人類。該研究成果已于12月15日發(fā)表在《IEEE大數(shù)據(jù)匯刊》上：https://ieeexplore.ieee.org/document/11300973。

中國杭州西湖大學(xué)工學(xué)院副院長Yue Zhang指出，過去二十年間，機器學(xué)習(xí)算法的能力發(fā)生了“重大范式轉(zhuǎn)變”，并特別提到新一代大語言模型的性能實現(xiàn)了巨大飛躍。但這些模型在翻譯任務(wù)上的實際表現(xiàn)究竟如何？

他表示：“盡管過去已有模型宣稱達到‘人類水平’，但相關(guān)結(jié)論一直存在爭議。我們希望跳出模糊的對比，用更科學(xué)的方式，把大語言模型的表現(xiàn)和不同層級的專業(yè)譯員做對標(biāo) —— 從初級到資深譯員逐一校準(zhǔn)。”

在該研究中，譯員等級定義如下：

初級譯員：擁有1–2年翻譯行業(yè)經(jīng)驗
中級譯員：擁有3–5年翻譯經(jīng)驗，或為目標(biāo)語言母語者
資深譯員：至少10年翻譯經(jīng)驗，且持有中國翻譯專業(yè)資格（水平）考試（CATTI）權(quán)威證書 —— 這是中國翻譯領(lǐng)域的國家級標(biāo)準(zhǔn)。

研究人員讓人類譯者與包括GPT-4、ALMA-R、Deepseek-R1在內(nèi)的大語言模型，對同一批文本樣本進行翻譯。團隊聘請了6名專業(yè)標(biāo)注人員對譯文質(zhì)量進行評估，且評估過程中不知道哪些譯文來自人類、哪些來自模型。

研究要求兩組對象完成多種語對翻譯，既有中英這類常見語對，也包括中-印地語這類相對少見的語對。

結(jié)果顯示，GPT-4的翻譯能力已與初級、中級人類譯者相當(dāng)。Yue Zhang指出，這很可能是人類歷史上首次有算法在翻譯質(zhì)量上達到了人類水平。

在包含約200個句子的文本段落翻譯測試中，研究覆蓋8組語言對。

GPT-4平均出現(xiàn)3.71處重大翻譯錯誤
初級譯員平均3.27處
中級譯員平均3.30處
資深譯員譯文質(zhì)量最高，平均僅1.83處重大錯誤

在處理小語種/冷門語對（如中譯印地語）時，人類與模型的錯誤率都明顯上升。

不過，人類與模型的錯誤類型截然不同：大語言模型有時會過于直譯、生硬。人類則相反，在面對模糊、歧義表述時，容易過度腦補、自行補全含義。例如，研究中一名人類譯者把短語entering his second year錯誤理解為“嬰兒滿兩歲”，而原文實際是在描述進入第二年的運動員。Yue Zhang評價道：“這既是人類譯者的優(yōu)勢，也是短板。”

研究顯示，人類譯者比大語言模型更容易出現(xiàn)過度解讀類錯誤。但正是這種對語言語境的深度理解能力，也讓資深譯員能夠精準(zhǔn)處理更細膩、更有隱含意義的文本片段。Yue Zhang表示，在需要高精度、文化適配或復(fù)雜創(chuàng)意解讀的任務(wù)（如文學(xué)作品）中，資深人類譯者仍然不可或缺。但他同時指出，已有初步跡象表明這一局面正在改變。

他提到，在研究中：“深度推理模型DeepSeek R1尤其擅長避免重大翻譯錯誤，這意味著具備推理能力的模型（如OpenAI o1、GPT-5、DeepSeek v3.2），或許是縮小與資深人類譯者差距的關(guān)鍵。”

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.