![]()
探索宇宙奧秘 · 理性思考
想象一下,你試圖通過分析莎士比亞全集來研究現代人的聊天習慣,結果會如何?大概率是風馬牛不相及。
就在最近,中國科學院心理研究所的研究團隊干了一件“笨功夫”,卻解決了一個大問題。他們發布了一個基于大規模自發言語的漢語學前兒童詞匯數據庫(CPCSLD)。這項成果近日已發表在心理學權威期刊《行為研究方法》上。
語言學界一直有一個共識:學前階段是兒童詞匯量暴漲的關鍵期。但是,要精確測量孩子到底能“說”多少詞,難度極大。
過去的研究,大多基于“輸入性材料”。比如,統計孩子讀的繪本里有多少詞,或者分析成人常用的詞匯有哪些。這種方法雖然省力,但只能反映孩子的“理解能力”。孩子能聽懂“復雜”,但他嘴里蹦出來的可能只有“難”。
這就導致了研究數據的失真。我們需要知道孩子在實際交流中,到底產出了什么詞匯,頻率如何,結構怎樣。
中科院心理所的團隊這次沒有走捷徑。他們直接盯著孩子的“嘴”。他們收集了北京地區648名3至6歲兒童的自發言語。這不是簡單的錄音,而是基于同伴對話情境下的自然流露。
![]()
語料內容極其豐富,涵蓋了旅行、玩具、圖書、動畫等貼近生活的主題。最終,他們構建了一個包含約120萬詞次、21372個不同詞條的龐大數據庫。這是首個專門面向漢語學前兒童“表達性詞匯”的數據庫。
這個數據庫的含金量,首先在于它的“顆粒度”非常細。
研究團隊按照幼兒園小班(K1)、中班(K2)及大班(K3)三個年齡段,分別構建了子數據庫。這意味著,我們可以清晰地看到孩子語言成長的每一個腳印。
數據揭示了一些有趣的規律。隨著孩子年齡增長,他們嘴里冒出的多音節詞比例越來越高。這說明,孩子的詞匯結構正在變得復雜,他們不再滿足于簡單的單詞表達,開始嘗試更復雜的句式和組合。
此外,數據庫還系統性地提供了詞頻、詞長、詞類、音節頻率等指標。特別是對于漢語這種聲調語言,數據庫還區分了1147個帶聲調音節和400個不帶聲調音節。
這些細節至關重要。它讓研究者不僅能看到孩子“說了什么”,還能看到他們“怎么發音”。對于漢語兒童語言發展研究而言,這提供了一把精準的尺子。
為了驗證這個數據庫的成色,研究團隊做了一項關鍵的對比測試。
![]()
而在語義判斷任務中,CPCSLD的優勢就不那么明顯了。這反向證明了之前的假設:理解性詞匯和表達性詞匯在大腦里的存儲和調用機制是不同的。
這個發現讓心理學界“懂了”:只有基于真實口語產出的數據,才能真正捕捉到言語產生過程中的關鍵特征。以前的那些“替代方案”,確實存在偏差。
放眼全球,兒童語言數據庫的建設已有幾十年歷史。英語世界有著名的CHILDES等系統,積累了海量數據。相比之下,漢語由于語言結構的特殊性,相關基礎數據一直比較匱乏。
以前,國內學者研究漢語兒童語言,往往不得不借用英語的研究范式,或者使用規模較小、標注粗糙的語料。這就像是用外國的尺子量中國的布,總歸是不貼切。
中科院這次發布的數據庫,標志著中國在心理語言學基礎數據建設上實現了重要突圍。這不僅是一個數據集,更是研究基礎設施的升級。
它的應用前景極為廣闊。在臨床領域,它可以幫助醫生建立標準化的常模,用于語言發育遲緩、自閉癥等障礙的早期篩查。如果孩子的詞匯產出數據明顯低于同齡人的數據庫標準,就能及早發現干預。
在人工智能領域,這個數據庫也是寶藏。目前的語音識別系統大多基于成人數據訓練,對“童言童語”的識別率一直不高。有了這個數據,訓練出能聽懂小朋友說話的AI將不再是難事。
從基礎的詞匯統計,到揭示認知機制,再到服務臨床與AI,這項研究真正做到了“一葉知秋”。它讓我們看到了中國科學家在基礎研究領域深耕細作的成果,也為理解人類語言習得的普遍規律提供了珍貴的“漢語視角”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.