網易首頁 > 網易號 > 正文申請入駐

伯明翰大學發布詩歌生成新標準：AI能否成為下一個莎士比亞？

2026-04-15 21:55:22　來源: 科技行者

北京舉報

分享至

詩歌被譽為人類文學藝術的巔峰，它需要將情感、智慧和技藝完美融合在有限的文字中。當我們談到詩歌創作時，往往會想到那些偉大的詩人——從莎士比亞到艾略特，他們用文字創造了永恒的藝術品。但在人工智能快速發展的今天，一個令人著迷的問題擺在我們面前：機器能否真正理解并創作出打動人心的詩歌？

這項由英國伯明翰大學語言學與傳播系、意大利特倫托大學信息工程與計算機科學系，以及伯明翰大學英語文學系和數據與人工智能研究所聯合進行的研究，發表于2026年的國際學習表征會議（ICLR 2026），為我們提供了迄今為止最全面的答案。研究團隊開發了名為POEMetric的詩歌評估框架——這是全球首個全面評估機器詩歌創作能力的系統性標準。

要理解這項研究的重要性，我們需要認識到詩歌創作的獨特復雜性。如果說散文寫作像是建造房屋，那么詩歌創作就像是在狹小空間內建造一座精美的宮殿。詩人不僅要遵循嚴格的格律和韻律規則，還要在有限的文字中傳達深刻的情感和意象。這種創作要求讓詩歌成為檢驗人工智能創造力的終極試金石。

研究團隊面臨的挑戰是前所未有的。現有的詩歌評估方法就像只看建筑外表的房屋評估師，只關注格律是否正確、韻律是否工整，卻忽略了詩歌的靈魂——創意、情感和藝術性。這就好比評價一幅畫作時只看顏色搭配是否和諧，而忽略了畫作傳達的情感和意境。

為了填補這個巨大的評估空白，研究團隊構建了POEMetric評估體系。這個體系就像一位經驗豐富的詩歌評論家，從多個維度全面審視每一首詩作。它不僅檢查詩歌是否遵循了基本的創作規則，更深入探究詩歌是否具備真正的藝術價值。

一、詩歌評估的三重境界

POEMetric評估體系就像一位資深的詩歌老師，用三個層次來評判一首詩的好壞。第一個層次是基礎服從性，檢查學生是否按照作業要求完成了詩歌創作。這包括格律準確性和主題契合度兩個方面。格律準確性就像檢查數學作業的計算過程是否正確，看詩歌是否遵循了指定的韻律模式和節拍規律。主題契合度則像作文評分中的"切題"要求，檢查詩歌內容是否圍繞給定主題展開。

第二個層次是高級創作能力，這是區分普通詩作和優秀詩作的關鍵所在。這個層次包含六個重要維度，每一個都像詩歌創作的不同技能。創意性考察詩歌是否帶來新穎的表達和獨特的視角，就像評判一道菜是否有創新的調料搭配。詞匯多樣性衡量詩人是否擁有豐富的表達工具，好比評價一位畫家的調色板是否多彩。獨特性觀察詩歌是否展現出作者的個人特色，這就像每個人都有自己獨特的筆跡一樣。

情感共鳴是詩歌最核心的品質之一，它考察作品是否能觸動讀者的心靈，如同評判一首歌曲是否能讓人產生情感波動。文學技巧的運用包括比喻、擬人、暗示等修辭手法，這些技巧就像廚師的刀工，決定了菜品的精致程度。意象營造能力則評估詩歌是否能在讀者腦海中創造出生動的畫面，就像優秀的導演能讓觀眾仿佛置身電影場景。

第三個層次是整體評價，包括詩歌的總體質量和作者身份識別。總體質量就像餐廳的綜合評分，將所有因素匯總后給出最終判斷。作者身份識別則是一個有趣的實驗，看評價者是否能區分出詩歌是人類還是機器創作的，這有點像品酒師試圖區分真正的陳年葡萄酒和人工調制的仿品。

二、構建詩歌評估的"黃金標準"

為了創建可靠的評估基準，研究團隊收集了203首高質量的人類詩作，涵蓋了七種經典詩歌形式。這個收集過程就像博物館策展人精心挑選藝術品，每首詩都必須符合嚴格的標準。這些詩歌形式包括敘事性的民謠、來自阿拉伯傳統的抒情短詩、幽默的五行打油詩、復雜的回環詩、精巧的六重復韻詩、經典的十四行詩，以及具有固定重復結構的田園曲。

研究團隊選擇這些固定形式的詩歌并非偶然，這就像在教授繪畫時首先讓學生學習素描基本功。固定形式的詩歌有明確的規則和約束，這讓評估變得更加客觀和可量化。當我們能夠準確評估在這些約束條件下的創作能力時，就為評估更自由的詩歌形式奠定了基礎。

每首收錄的詩歌都經過了細致的標注工作，研究人員為每首詩標記了韻律模式、韻腳安排、主題內容和意象使用。這個過程類似于為古董進行詳細的鑒定，記錄每一個重要特征。這些標注不僅幫助研究人員理解詩歌的結構特點，更為后續的自動化評估算法提供了訓練材料。

為了確保評估的公正性，研究團隊開發了一套自動化的形式檢測算法。這套算法就像一位精密的樂器調音師，能夠準確識別詩歌的韻律和節拍模式。算法采用了70%的容錯閾值，這意味著它既不會過分嚴苛地要求完美，也不會過于寬松地降低標準。這種平衡就像優秀的老師既鼓勵學生創新，又確保基本功扎實。

三、三十臺AI詩人的創作大比拼

研究團隊邀請了30個不同的大型語言模型參與這場史無前例的詩歌創作競賽。這些AI模型來自七家頂級科技公司，包括開源和商業化的各種版本。每個模型都要根據人類詩歌的相同題目和格式要求創作詩歌，總共產生了6090首AI詩作。這就像舉辦了一場規模空前的機器人詩歌大賽，每個參賽者都要在相同條件下展示自己的創作才華。

為了確保評估的準確性和可靠性，研究團隊采用了多重驗證機制。主要的評判工作由Google的Gemini-2.5-Pro模型承擔，這個選擇經過了嚴格的篩選過程。研究人員測試了多個候選評判模型，發現Gemini-2.5-Pro在與人類專家評判結果的一致性方面表現最佳，就像選擇最有經驗的裁判來主持重要比賽。

更重要的是，研究團隊還邀請了七位人類詩歌專家對部分作品進行評估，以驗證AI評判的可靠性。這些專家包括職業詩人、文學博士、研究學者和教授等，他們的專業背景保證了評估的權威性。人類專家與AI評判者的一致性達到了66.2%，這個結果相當令人滿意，表明AI評判系統確實能夠可靠地評估詩歌質量。

四、令人意外的評估結果

經過全面評估，研究結果既有預期之中的發現，也有令人驚訝的表現。在基礎服從性方面，頂級AI模型表現相當出色。Gemini-2.5-Pro在格律準確性方面得分4.26分（滿分5分），在主題契合度方面更是達到了4.99分的近乎完美成績。這說明現代AI已經完全掌握了詩歌創作的基本規則，就像學會了嚴格按照食譜制作標準菜品的廚師。

然而，當評估轉向更高層次的創作能力時，AI與人類詩人之間的差距就變得明顯了。在創意性方面，人類詩人取得了4.02分的高分，而表現最佳的AI模型只達到了2.17分。這種差異就像比較職業廚師的創新菜品和按照標準食譜制作的菜品，前者總是能帶來意想不到的驚喜。

更令人深思的是獨特性評分的巨大差異。人類詩人在這一項上得分3.95分，而AI模型普遍只有1.24到3.31分不等。這個結果揭示了AI創作的一個根本局限：缺乏個人經驗和獨特視角。每個人類詩人都有自己獨特的人生經歷、情感體驗和觀察角度，這些無法復制的個人特質為他們的詩作注入了獨特的靈魂。相比之下，AI模型雖然可以模仿各種風格，但很難形成真正屬于自己的創作特色。

在情感共鳴方面，人類詩人同樣保持著顯著優勢，得分4.06分，而AI模型的表現介于2.15到3.53分之間。這個差距反映了一個深層次的問題：真正的情感需要真實的體驗作為基礎。人類詩人寫下的每一個詞匯都可能承載著真實的情感記憶，而AI生成的情感表達更像是對情感模式的精確模擬。

五、創作過程的神秘面紗

研究中最引人入勝的發現之一是DeepSeek-R1模型展現出的創作思考過程。這個模型具備思維鏈功能，能夠展示其創作時的內在推理過程。觀察這個過程就像透過透明的窗戶看到詩人創作時的思維活動，令人驚嘆不已。

DeepSeek-R1在創作時會首先分析給定的題目和格式要求，然后規劃整首詩的結構布局。它會逐段考慮主題發展，頭腦風暴相關詞匯和意象，甚至會主動嘗試加入各種文學技巧。整個過程井然有序，就像一位經驗豐富的建筑師在設計樓房時的思路。這種系統性的創作方法與許多人類詩人的直覺式創作形成了有趣的對比。

更有趣的是，這個模型還會對自己的用詞選擇進行反思和調整，展現出一種自我批判的能力。它可能會思考某個詞匯是否足夠生動，某個比喻是否恰當，某句話是否符合整首詩的情感基調。這種自我審視的能力讓人不禁思考：如果機器具備了如此細致的創作思維過程，它們與人類詩人的差異究竟還有多大？

六、技術表現的深層分析

在詞匯多樣性方面，AI模型出人意料地超越了人類詩人。通過移動平均類型標記比率的測量，AI詩作顯示出更豐富的詞匯使用。這個結果初看似乎有利于AI，但深入分析后發現，這種多樣性可能更像是炫技而非藝術需要。人類詩人往往會有意選擇特定的詞匯，為了營造特定的氛圍或強化某種情感，即使這意味著重復使用某些詞匯。

另一個發現是AI詩作中存在明顯的重復模式問題。當研究人員比較AI生成的詩歌與人類原作時，發現AI經常會重復使用訓練數據中的詞匯組合和表達方式。這種現象類似于學生過分依賴參考書中的例句，雖然語法正確，但缺乏原創性。這個發現提醒我們，AI的創作能力在很大程度上依賴于已有的文本模式，而真正的創新往往需要突破這些模式。

在文學技巧的運用方面，人類詩人展現出了壓倒性的優勢，平均得分4.67分，而AI模型最高只達到4.38分。更重要的是，人類詩人使用文學技巧時往往更加自然和恰當，就像經驗豐富的廚師調料，每一種技巧都恰到好處地服務于整體效果。而AI模型雖然也會使用各種修辭手法，但有時顯得生硬或刻意，缺乏融合的自然感。

七、意象營造的藝術差異

在意象營造能力方面，人類詩人再次顯示出了卓越的天賦，平均得分4.49分，而AI模型普遍在3.79到4.30分之間徘徊。這個差異揭示了詩歌創作中的一個核心要素：意象不僅僅是描述性的畫面，更是情感和思想的載體。

人類詩人在描繪意象時，往往能夠將個人經驗、文化背景和情感記憶融合在一起，創造出獨特而有力的視覺效果。他們可能會用"夕陽像母親的眼淚"這樣的表達，這種意象承載著深層的情感聯想。而AI模型雖然也能生成美麗的意象描述，但往往缺乏這種深層的個人化和情感化內涵。

研究還發現，在意象選擇方面，人類和AI都傾向于使用"眼睛"、"太陽"、"面龐"等常見意象，但人類詩人更多地描寫"水"和"神"等具有象征意義的元素，而AI模型則偏向于"絲線"、"綻放"等更具體的視覺意象。這種差異反映了兩者在意象理解上的不同層次：人類更善于運用具有深層文化和精神內涵的意象，而AI更多地停留在表面的視覺效果層面。

八、評估結果的更深層含義

研究的最終評判環節揭示了一個令人深思的現象：無論是AI評判還是人類專家，都能相當準確地識別詩作的真實作者身份。在203首人類詩作中，AI評判系統識別出了80首（39.4%）的原作，這些識別要么基于對原詩的直接記憶，要么基于對特定詩人風格的識別。

這個發現具有雙重意義。一方面，它說明人類詩歌確實具有難以模仿的獨特性，每位詩人都有自己的"指紋"般的創作特色。另一方面，它也暗示現代AI系統已經具備了相當高級的文學鑒賞能力，能夠識別和分析不同的創作風格。

更有趣的是，在總體詩歌質量的評估中，人類詩作以4.22分的平均成績明顯超越了表現最佳的AI模型（3.20分）。這個差距雖然看似不大，但在詩歌這樣的藝術領域，每一分的差異都可能意味著巨大的質量區別，就像品酒師在評判葡萄酒時，細微的分數差異往往反映著本質的品質差異。

九、不同模型的表現特點

在30個參與測試的AI模型中，表現呈現出有趣的規律性。一般而言，參數規模更大的模型在詩歌創作方面表現更好，這符合我們對AI能力與模型規模關系的預期。然而，研究也發現了一些出人意料的結果。

例如，一些專門設計用于復雜推理的"思維模型"并沒有在詩歌創作上顯示出顯著優勢。GPT-4o和GPT-4的表現反而超過了o1和o3-mini這樣的思維增強模型。這個發現提示我們，詩歌創作可能更需要的是對語言美感的直覺理解，而不是復雜的邏輯推理能力。

在不同公司的模型對比中，各家都展現出了各自的特色。某些模型在格律準確性方面表現突出，而另一些則在創意性方面有所建樹。這種多樣性反映了不同技術路線在文學創作方面的不同取向和優勢。

十、研究的局限性與未來展望

研究團隊誠懇地承認了這項研究的局限性。首先，研究專注于英語詩歌，而詩歌作為一種深受文化和語言特色影響的藝術形式，在不同語言和文化背景下可能呈現出完全不同的特點。其次，研究選擇了固定格式的詩歌進行評估，雖然這提供了客觀的評估基準，但現代詩歌更多地采用自由詩形式，這些形式的評估可能需要完全不同的方法。

此外，雖然研究邀請了人類專家進行驗證，但受限于資源和時間，專家評估的樣本相對有限。如果能夠擴大人類專家評估的范圍，可能會為AI評估系統的改進提供更多有價值的參考。

展望未來，這項研究為詩歌和文學創作的AI評估奠定了重要基礎。研究團隊期望POEMetric評估框架能夠適應更多語言和文化背景，并且擴展到自由詩和其他文學形式的評估。隨著AI技術的不斷發展，我們或許會看到在創意性、情感表達和個性化方面更加接近人類水平的AI詩人的出現。

說到底，這項研究最重要的價值不在于判定AI是否能夠完全替代人類詩人，而在于幫助我們更好地理解詩歌創作的本質，以及人類創造力的獨特之處。正如T.S.艾略特所說的"聽覺想象力"——聲音、意義和文化記憶的融合——這種能力或許正是區分真正的詩歌與機械文字排列的關鍵所在。無論AI如何發展，這種深植于人類經驗中的創造力都將是我們最寶貴的藝術財富。

當我們觀察AI在詩歌創作方面的表現時，不應該感到威脅或失望，而應該為人類創造力的獨特性感到自豪。同時，我們也應該積極擁抱AI作為創作工具的可能性，讓技術為人類的藝術創作提供更多的支持和靈感。畢竟，最美好的未來可能不是AI完全替代人類詩人，而是人類與AI在創作領域的和諧合作，共同推動文學藝術達到新的高度。

Q&A

Q1：POEMetric詩歌評估框架包含哪些評估維度？

A：POEMetric包含三個層次的評估：基礎服從性（格律準確性和主題契合度）、高級創作能力（創意性、詞匯多樣性、獨特性、情感共鳴、文學技巧和意象營造）、以及整體評價（總體質量和作者身份識別）。這套體系首次全面評估了AI詩歌創作的各個方面。

Q2：AI模型在詩歌創作方面的表現如何？

A：AI模型在基礎規則遵循方面表現出色，頂級模型在格律準確性和主題契合度方面接近完美。但在創意性、獨特性、情感共鳴等高級能力方面明顯落后于人類詩人。最佳AI模型的總體質量得分為3.20分，而人類詩人達到4.22分。

Q3：這項研究對AI詩歌創作發展有什么意義？

A：這項研究建立了首個全面的AI詩歌評估標準，為后續研究提供了科學基準。它揭示了AI詩歌創作的優勢和局限性，為改進AI文學創作能力指明了方向，同時也證明了人類創造力在藝術領域的獨特價值和不可替代性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.