研究人員對(duì)人工智能和10萬名人類進(jìn)行了創(chuàng)造力測(cè)試。 人工智能可以超越普通人類的創(chuàng)造力——但最具想象力的頭腦仍然無疑是人類的。
- 日期:
- 2026年1月25日
- 蒙特利爾大學(xué)
- 概括:
- 一項(xiàng)大規(guī)模的新研究對(duì)比了超過10萬名人類和當(dāng)今最先進(jìn)的人工智能系統(tǒng),得出了一個(gè)令人驚訝的結(jié)果:生成式人工智能在某些創(chuàng)造力測(cè)試中已經(jīng)能夠超越普通人類。像GPT-4這樣的模型在旨在衡量原創(chuàng)思維和創(chuàng)意生成的任務(wù)中表現(xiàn)出色,有時(shí)甚至超越了典型的人類反應(yīng)。但人工智能的上限依然存在。最具創(chuàng)造力的人類——尤其是排名前10%的人群——仍然遠(yuǎn)遠(yuǎn)領(lǐng)先于人工智能,尤其是在詩(shī)歌和故事創(chuàng)作等更復(fù)雜的創(chuàng)意工作方面。
最新研究表明,人工智能在某些創(chuàng)造力測(cè)試中能夠超越普通人——這對(duì)于生成模型而言是一個(gè)引人注目的轉(zhuǎn)折點(diǎn)。圖片來源:Shutterstock
像 ChatGPT 這樣的生成式人工智能系統(tǒng)真的能創(chuàng)造出原創(chuàng)的想法嗎?蒙特利爾大學(xué)心理學(xué)系的 Karim Jerbi 教授領(lǐng)導(dǎo)的一項(xiàng)新研究,并邀請(qǐng)了著名人工智能研究員 Yoshua Bengio 參與,以前所未有的規(guī)模探討了這個(gè)問題。這項(xiàng)研究是迄今為止對(duì)人類創(chuàng)造力和大型語言模型創(chuàng)造力進(jìn)行的最大規(guī)模的直接比較。
這項(xiàng)發(fā)表在《科學(xué)報(bào)告》(自然系列)上的研究指出,人工智能的發(fā)展正經(jīng)歷著重大轉(zhuǎn)變。生成式人工智能系統(tǒng)如今已達(dá)到在某些創(chuàng)造力指標(biāo)上超越普通人類的水平。與此同時(shí),最具創(chuàng)造力的人仍然展現(xiàn)出明顯且持續(xù)的優(yōu)勢(shì),甚至超越了最強(qiáng)大的人工智能模型。
人工智能達(dá)到人類平均創(chuàng)造力水平
研究人員評(píng)估了包括 ChatGPT、Claude、Gemini 等在內(nèi)的幾種領(lǐng)先的大型語言模型,并將它們的性能與超過 10 萬名人類參與者的測(cè)試結(jié)果進(jìn)行了比較。研究結(jié)果凸顯了一個(gè)明顯的轉(zhuǎn)折點(diǎn)。一些人工智能系統(tǒng),例如 GPT-4,在旨在衡量語言創(chuàng)造力差異的任務(wù)中,其表現(xiàn)甚至超過了人類的平均水平。
“我們的研究表明,一些基于大型語言模型的AI系統(tǒng)在特定任務(wù)上的表現(xiàn)已經(jīng)超越了人類的平均創(chuàng)造力,”卡里姆·杰爾比教授解釋說。“這一結(jié)果或許令人驚訝,甚至令人不安,但我們的研究也凸顯了一個(gè)同樣重要的觀察結(jié)果:即使是最好的AI系統(tǒng),其創(chuàng)造力水平仍然不及最具創(chuàng)造力的人類。”
該研究的共同第一作者,蒙特利爾大學(xué)的博士后研究員安托萬·貝勒馬爾-佩潘和康考迪亞大學(xué)的博士候選人弗朗索瓦·萊斯皮納斯進(jìn)行的進(jìn)一步分析揭示了一個(gè)引人注目的模式。盡管一些人工智能模型現(xiàn)在的表現(xiàn)已經(jīng)超越了普通人,但創(chuàng)造力的巔峰仍然牢牢掌握在人類手中。
事實(shí)上,當(dāng)研究人員考察最具創(chuàng)造力的那半數(shù)參與者時(shí),他們的平均得分超過了所有測(cè)試過的AI模型。而在最具創(chuàng)造力的前10%人群中,這種差距甚至更大。
“我們與多倫多大學(xué)的杰伊·奧爾森合作,基于超過 10 萬名參與者的數(shù)據(jù),開發(fā)了一個(gè)嚴(yán)謹(jǐn)?shù)目蚣埽刮覀兡軌蚴褂孟嗤墓ぞ弑容^人類和人工智能的創(chuàng)造力,”卡里姆·杰爾比教授說道,他同時(shí)也是 Mila 的副教授。
科學(xué)家如何衡量人類和人工智能的創(chuàng)造力
為了公平地評(píng)估人類和機(jī)器的創(chuàng)造力,研究團(tuán)隊(duì)采用了多種方法。主要工具是發(fā)散聯(lián)想任務(wù)(DAT),這是一種廣泛使用的心理測(cè)試,用于測(cè)量發(fā)散創(chuàng)造力,即根據(jù)單一提示產(chǎn)生多樣化原創(chuàng)想法的能力。
由該研究的合著者杰伊·奧爾森(Jay Olson)創(chuàng)建的DAT測(cè)試要求參與者(無論是人類還是人工智能)列出十個(gè)含義盡可能不相關(guān)的單詞。一個(gè)極具創(chuàng)意的回答示例包括“星系、叉子、自由、藻類、口琴、量子、懷舊、天鵝絨、颶風(fēng)、光合作用”等單詞。
這項(xiàng)任務(wù)的表現(xiàn)與寫作、創(chuàng)意生成和創(chuàng)造性問題解決等其他成熟的創(chuàng)造力測(cè)試結(jié)果密切相關(guān)。雖然這項(xiàng)任務(wù)以語言為基礎(chǔ),但它遠(yuǎn)不止于詞匯量。它調(diào)動(dòng)了跨多個(gè)領(lǐng)域創(chuàng)造性思維所涉及的更廣泛的認(rèn)知過程。DAT 還具有實(shí)用優(yōu)勢(shì),只需兩到四分鐘即可完成,并且公眾可以在線訪問。
從詞匯表到真正的創(chuàng)意寫作
研究人員隨后探索了人工智能在這種簡(jiǎn)單的詞語聯(lián)想任務(wù)上的成功是否能夠推廣到更復(fù)雜、更貼近現(xiàn)實(shí)的創(chuàng)意活動(dòng)中。為了驗(yàn)證這一點(diǎn),他們將人工智能系統(tǒng)和人類參與者在創(chuàng)作俳句(一種三行短詩(shī))、撰寫電影劇情簡(jiǎn)介和創(chuàng)作短篇小說等創(chuàng)意寫作挑戰(zhàn)中的表現(xiàn)進(jìn)行了比較。
結(jié)果遵循著熟悉的模式。雖然人工智能系統(tǒng)有時(shí)表現(xiàn)優(yōu)于普通人類,但技藝最精湛的人類創(chuàng)作者始終能創(chuàng)作出更優(yōu)秀、更具原創(chuàng)性的作品。
人工智能的創(chuàng)造力可以調(diào)整嗎?
這些發(fā)現(xiàn)引出了另一個(gè)重要問題:人工智能的創(chuàng)造力是固定的,還是可以塑造的?研究表明,人工智能的創(chuàng)造力可以通過改變技術(shù)設(shè)置來調(diào)整,尤其是模型的溫度。這個(gè)參數(shù)控制著生成響應(yīng)的可預(yù)測(cè)性或創(chuàng)新性。
在較低溫度設(shè)置下,人工智能會(huì)產(chǎn)生更安全、更常規(guī)的輸出結(jié)果。在較高溫度下,響應(yīng)會(huì)變得更加多樣化、更難以預(yù)測(cè),也更具探索性,從而使系統(tǒng)能夠超越既有的思維模式。
研究人員還發(fā)現(xiàn),創(chuàng)造力很大程度上受指令編寫方式的影響。例如,鼓勵(lì)模型運(yùn)用詞源學(xué)思考詞源和結(jié)構(gòu)的提示,能夠帶來更多意想不到的聯(lián)想,并提升創(chuàng)造力得分。這些結(jié)果強(qiáng)調(diào),人工智能的創(chuàng)造力高度依賴于人類的指導(dǎo),因此交互和提示是創(chuàng)造過程的核心組成部分。
人工智能會(huì)取代人類創(chuàng)作者嗎?
這項(xiàng)研究對(duì)人工智能可能取代創(chuàng)意專業(yè)人士的擔(dān)憂提出了較為平衡的觀點(diǎn)。雖然人工智能系統(tǒng)在某些任務(wù)上已經(jīng)能夠達(dá)到甚至超越人類的平均創(chuàng)造力水平,但它們?nèi)匀淮嬖诿黠@的局限性,并且需要依賴人類的指導(dǎo)。
“盡管人工智能在某些測(cè)試中已經(jīng)能夠達(dá)到人類的創(chuàng)造力水平,但我們需要超越這種誤導(dǎo)性的競(jìng)爭(zhēng)觀念,”卡里姆·杰爾比教授說道。“生成式人工智能首先已經(jīng)成為服務(wù)于人類創(chuàng)造力的極其強(qiáng)大的工具:它不會(huì)取代創(chuàng)造者,而是會(huì)深刻地改變?nèi)藗兿胂蟆⑻剿骱蛣?chuàng)造的方式——對(duì)于那些選擇使用它的人來說。”
研究結(jié)果并非預(yù)示著創(chuàng)意職業(yè)的終結(jié),而是表明人工智能未來將成為創(chuàng)意助手。通過拓展思路、開辟新的探索路徑,人工智能或許能夠增強(qiáng)而非取代人類的想象力。
“通過直接比較人類和機(jī)器的能力,像我們這樣的研究促使我們重新思考創(chuàng)造力的含義,”卡里姆·杰爾比教授總結(jié)道。
關(guān)于這項(xiàng)研究
題為“人類和大型語言模型中的發(fā)散性創(chuàng)造力”的論文于 2026 年 1 月 21 日發(fā)表在《科學(xué)報(bào)告》上。該研究匯集了來自蒙特利爾大學(xué)、康考迪亞大學(xué)、多倫多大學(xué)密西沙加分校、魁北克人工智能研究所 (Mila) 和谷歌 DeepMind 的科學(xué)家。
這項(xiàng)研究由卡里姆·杰爾比教授領(lǐng)導(dǎo),安托萬·貝勒馬爾-佩潘(蒙特利爾大學(xué))和弗朗索瓦·萊斯皮納斯(康考迪亞大學(xué))共同擔(dān)任第一作者。研究團(tuán)隊(duì)還包括約書亞·本吉奧,他是Mila和LoiZéro的創(chuàng)始人,也是深度學(xué)習(xí)領(lǐng)域的先驅(qū),而深度學(xué)習(xí)正是ChatGPT等現(xiàn)代人工智能系統(tǒng)背后的技術(shù)。
- Antoine Bellemare-Pepin、Fran?ois Lespinasse、Philipp Th?lke、Yann Harel、Kory Mathewson、Jay A. Olson、Yoshua Bengio、Karim Jerbi.人類的發(fā)散性創(chuàng)造力與大型語言模型.科學(xué)報(bào)告, 2026; 16 (1) DOI: 10.1038/s41598-025-25157-3
引用此頁(yè)面:
蒙特利爾大學(xué)。“研究人員對(duì)人工智能和10萬名人類的創(chuàng)造力進(jìn)行了測(cè)試。” ScienceDaily。ScienceDaily,2026年1月25日。 / releases / 2026 / 01 / 260125083356.htm>。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.