![]()
讓韓國企業(yè)開發(fā)的人工智能(AI)模型解答高考試題,結(jié)果顯示其得分遠低于國外AI。韓國AI業(yè)界認為這是模型用途不同而導(dǎo)致的結(jié)果。
發(fā)生了什么?
15日,韓國西江大學(xué)數(shù)學(xué)系金鐘洛(音)教授研究團隊公布了“國家代表AI”模型挑戰(zhàn)的性能評估結(jié)果。評估對象包括參加科學(xué)技術(shù)信息通信部(科技部)自主AI基礎(chǔ)模型項目的5家韓國企業(yè),Naver、NC AI、LG AI研究院、SKT、Upstage AI模型,以及OpenAI、谷歌、DeepSeek等5家國外AI企業(yè)的最新模型。研究團隊挑選從高考數(shù)學(xué)四個領(lǐng)域(公共科目、概率與統(tǒng)計、微積分、幾何)中各選取5道最難題目共20題,加上韓國論述及印度大學(xué)入學(xué)考試各10題,日本東京大學(xué)工學(xué)院研究生入學(xué)考試10題,總計50道題目讓AI解答。
結(jié)果顯示,5個國外AI模型全部取得70%以上的正確率。尤其是谷歌最新模型“Gemini 3 Pro”答對50題中的46題,正確率達92%。Anthropic的Claude以84%、xAI的Grok以82%的正確率緊隨其后。相比之下,韓國AI企業(yè)的模型正確率明顯偏低。除Upstage的“Solar Pro2”(58%)外,大多只有20%左右的正確率。在研究團隊自制的包含數(shù)學(xué)奧林匹克、大學(xué)數(shù)學(xué)概念的“熵集”題目中,國外AI模型得分超過80分,而韓國AI模型僅獲得7.1~53.3分。金鐘樂教授團隊評價稱,“可見國內(nèi)模型水平落后于國外前沿模型”。
業(yè)界認為,受評估的韓國AI開發(fā)商主要專注于開發(fā)工作用AI,數(shù)學(xué)解題得分低是必然的。某應(yīng)用AI創(chuàng)業(yè)公司首席技術(shù)官(CTO)表示,“韓國AI開發(fā)商的目標是開發(fā)像AI代理這樣的工業(yè)用AI”,“(用高考數(shù)學(xué)評估時)韓國大語言模型得分自然較低”。部分受評估模型采用預(yù)訓(xùn)練方式(基于學(xué)習(xí)數(shù)據(jù)給出高概率答案)也是局限所在。與國外模型采用分步驗證的推理方式不同,預(yù)訓(xùn)練AI在數(shù)學(xué)、編程等邏輯解題方面相對較弱。
自主AI競爭力需要更精細的戰(zhàn)略
對此有觀點認為,要實現(xiàn)進入全球前十的自主AI基礎(chǔ)模型開發(fā)目標,需要更精細的戰(zhàn)略。韓國副總理兼科技部長裴慶勛15日在世宗市記者座談會上表示,“開發(fā)自主AI基礎(chǔ)模型的企業(yè)確實一直根據(jù)商業(yè)目的開發(fā)AI模型,缺乏針對科學(xué)與數(shù)學(xué)等推理型AI模型的數(shù)據(jù)學(xué)習(xí)”,“例如,將化學(xué)領(lǐng)域的分子結(jié)構(gòu)式轉(zhuǎn)換為AI可識別的數(shù)據(jù)形式等,通過制作各領(lǐng)域?qū)S脭?shù)據(jù)并進行學(xué)習(xí),就能具備全球前十的競爭力”。
其宗旨是,鑒于開發(fā)精通數(shù)學(xué)等所有學(xué)科的AI現(xiàn)實難度大,應(yīng)專注于可實際應(yīng)用于服務(wù)的輕量化AI開發(fā)。Naver相關(guān)人士表示,“大型模型存在需要很長時間才能給出相應(yīng)答案或成本高的問題,我們正以服務(wù)應(yīng)用為目標開發(fā)模型”,“優(yōu)先確保在同規(guī)模模型中提升性能的技術(shù)”。Kakao也專注于開發(fā)Kanana Nano等輕量化模型,以便在多種本公司服務(wù)中使用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.