<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      20萬生僻字“重生”記

      0
      分享至



      作者 |辰紋

      來源 |洞見新研社

      過去,一個古文獻研究專家在處理一批珍貴刻本。突然,一個從未見過的生僻字映入眼簾。按照傳統(tǒng)工作流程,他需要查閱大量工具書才能弄清這個字的含義,期間可能花費數(shù)小時甚至數(shù)天,這在學界是司空見慣的現(xiàn)象。

      但現(xiàn)在,他只需打開“識典古籍”平臺,使用最新上線的編輯器搜字、造字、復制字圖功能,將這個字拆解拼接,系統(tǒng)便從20余萬個字形中精準匹配出了結(jié)果——整個過程不到10秒。

      這正是字節(jié)跳動用技術(shù)助力古籍數(shù)字化帶來的變革。通過AI技術(shù),識典古籍不僅大幅降低了古籍整理門檻,提升了工作效率,更解決了困擾古文獻研究領(lǐng)域多年的生僻字整理難題。

      01 古籍數(shù)字化的三大難題

      古籍整理,單從字面上來理解,與普通人的生活幾乎沒有任何關(guān)聯(lián),但從宏觀視角來看,作為歷史文明傳承的載體,古籍的價值無可替代。它們既是中國古典學不可或缺的研究基礎(chǔ),也是社會大眾繼承和發(fā)揚傳統(tǒng)文化的寶貴資源,同時還是世界理解中華文明的重要途徑。

      早在1919年,胡適就在《新青年》雜志上發(fā)起了著名的“整理國故”運動,提出“研究問題、輸入學理、整理國故、再造文明”的主張,胡適本人也身體力行,投入巨大精力進行國學研究,創(chuàng)辦《國學季刊》;推動古史討論,擬出“最低限度的國學書目”,向廣大青年大力推薦……

      進入21世紀,古籍整理工作的重要程度也在學界、國家管理機構(gòu)、乃至社會層面形成了共識。2007年,重大文化工程“中華古籍保護計劃”啟動;2018年,《中華人民共和國公共圖書館法》頒布,“公共圖書館要加強館內(nèi)古籍保護”成為法條……

      根據(jù)國家古籍保護中心調(diào)查結(jié)果顯示,我國現(xiàn)存20多萬種古籍,存世50萬個版本,古籍數(shù)量達3200多萬冊,然而當前古籍整理工作的現(xiàn)狀卻是數(shù)字化程度極低,許多書只是完成了初步的影像掃描,真正實現(xiàn)文本數(shù)字化的不到四萬種。

      之所以會存在這樣的困境,專業(yè)人才匱乏是首要障礙。

      全國高等院校古籍整理研究工作委員會副秘書長吳國武在接受媒體采訪時曾透露,目前全國范圍內(nèi)專業(yè)從事古籍整理的人員僅有一萬人左右。華東師范大學古典文獻學在讀博士生劉帥以自己作為參照,“一年能整理幾十萬字就很了不起了”。

      需要整理的古籍數(shù)量巨大,但在供應端,專業(yè)人才不夠,單人效率又有限,古籍整理工作推進自然就快不起來。

      其次是生僻字處理存在技術(shù)瓶頸,由于古籍中存在大量異體字、俗體字和避諱字,使得文字識別準確率難以提高。傳統(tǒng)OCR技術(shù)是為打印材料設(shè)計的,面對古書中的不同字體風格、非漢字筆畫符號、折痕和破損缺字,識別效果大打折扣。

      最后是資金與版權(quán)的桎梏。從1999年“文淵閣四庫全書”數(shù)據(jù)庫發(fā)布以來,古籍數(shù)據(jù)庫成為中國古典研究不可或缺的基礎(chǔ)設(shè)施,同時大多數(shù)的重要典籍也都已經(jīng)完成了數(shù)字化。

      由于最方便使用的古籍圖文庫基本上都是商業(yè)數(shù)據(jù)庫,這就限制了普通公眾的訪問。

      隨著人力校對成本越來越高,商業(yè)古籍庫擴容的邊際收益斷崖式下跌,這就使得現(xiàn)階段很多古籍數(shù)字化工作成果有些“養(yǎng)在深閨人未識”的狀態(tài),不能被公眾充分利用,并且發(fā)展建設(shè)難以為繼。

      02 從“字圖”到“造字”的技術(shù)破局

      正是在這樣的背景之下,字節(jié)跳動在2022年10月,與北京大學合作推出了完全公益的古籍智能閱讀和整理平臺——“識典古籍”,旨在通過技術(shù)力量改變傳統(tǒng)古籍整理模式。

      識典古籍初期就整合了三大核心技術(shù),文字識別(OCR),自動標點和實體識別,這意味著機器已經(jīng)能夠初步“讀懂”古文。

      就在不久前,針對古籍數(shù)字化中最棘手的生僻字問題,識典古籍平臺推出了編輯器造字、拼字、字圖復制功能,將古籍數(shù)字化工作的效率又向前推動了一大步。

      在以往的古籍數(shù)字化過程中,遇到字庫中沒有的生僻字或異體字時,研究人員的通常做法是截取該字在古籍掃描圖中的局部區(qū)域的圖片作為替代,稱之為“字圖”。

      然而這樣處理存在明顯缺陷,字圖有當時古籍本身的印刷書寫風格和背景,不宜閱讀;同時,不同字圖可能實為同一字,卻因無法識別而被重復截取,造成整理混亂。

      識典古籍給出的解決方案是自研了一套拼字輸入法(拼出字圖)造標準宋體字(造出字圖)等算法,以幫助研究人員在整理古籍時能夠快速的輸入生僻字甚至“造”出字體。

      拼字輸?法的技術(shù)原理并不復雜,就是讓用戶在自己認識的簡單字和簡單筆畫的基礎(chǔ)上,去搜索更加復雜的漢字,即便不清楚這個漢字的字音、字義,也能憑借字形快速匹配。

      例如,“矦”字可由“?”“廠”“矢”組成,輸入這些部件即可召回該字。對于普通人來說,雖然這個字我不認識,但總有它的部分我認識,認識什么輸入什么,就可以把這個字拼出來。這種方式比五筆輸入法更直觀,無需記憶詞根,也支持生僻字檢索。



      在研發(fā)過程中,團隊面臨的核心挑戰(zhàn)是漢字組合的極端復雜性。例如一個“椪”字,就有“木並”、“木?業(yè)”、“木丷亞”、“木八亞”等多種拆分方式,組合數(shù)量呈階乘級增長,傳統(tǒng)窮舉方法根本行不通。

      團隊曾嘗試用有向無環(huán)圖來建模漢字部件關(guān)系,想象一堆有箭頭連接的積木,箭頭只指向后方,且絕對不允許形成一個閉合的圓圈,這樣我們就可以從起點一路暢通無阻地走到終點,但十萬漢字構(gòu)建的圖譜對性能挑戰(zhàn)巨大,也難以量化匹配效果。

      那段時間,組內(nèi)成員兵分幾路,有人繼續(xù)嘗試圖結(jié)構(gòu)優(yōu)化,有人從組合數(shù)學角度尋找新思路。大家頻繁交流、互相“挑戰(zhàn)”,常常列舉出各種bad case推翻對方方案,卻又在碰撞中萌生新的靈感。

      最終,識典古籍研發(fā)團隊設(shè)計出了一套高性能、通過計算漢字細節(jié)特征進行匹配的解決方案,可支持在20余萬個漢字中實時搜索。

      該方案在初始加載階段,不僅會整體收集每個漢字的組成部分作為其特征,還會構(gòu)建一套簡繁字、偏旁部首的等價映射表,如“馬”可代“馬”、“水”可代“氵”。

      在搜索階段,算法會先對用戶輸入進行前置處理以提升容錯能力,比如相似的“”和“乚”都會被處理成“乚”,然后比對用戶輸入與所有漢字特征之間的差異,按匹配程度排序返回最佳結(jié)果,若匹配失敗,算法還會自動使用等價映射表重新檢索,如輸入“水”、“木”可查找出“沐”,顯著降低輸入門檻,更貼合用戶的用字習慣。

      記得那天下午,當?shù)谝话嫠惴炞C通過、匹配準確率大幅提升時,整個團隊都感到“內(nèi)心無比激動”。長期困擾項目的瓶頸終于突破,多位成員在現(xiàn)場忍不住鼓掌。

      拼字輸入法主要輔助研究人員找到當今已經(jīng)被編碼的漢字,對于古籍中存在的?些沒有被計算機編碼的漢字,識典古籍團隊又開發(fā)了基于IDS造出標準宋體字的算法,通過結(jié)構(gòu)化的描述?式去表達任意?個漢字,進而為這個生僻字量?設(shè)計字體。

      根據(jù)識典古籍團隊介紹,IDS是Unicode標準定義的漢字結(jié)構(gòu)描述語法,通過IDC符號(用于描述漢字結(jié)構(gòu),如?、?、?、?、?等)和漢字部件組合而成。例如,“古”字是上下結(jié)構(gòu),其IDS就是 “?十口”。



      通過分析漢字的空間結(jié)構(gòu)輸入相應的IDS表達式生成字體字形,以上是不同空間結(jié)構(gòu)的示例

      造字的核心是解析用戶輸入的IDS表達式,為每個部件選擇合適的變形和空間布局,組合成新字。例如,在處理左右結(jié)構(gòu)時,需控制部件寬度比例和間距;在處理包圍結(jié)構(gòu)時,需確定缺口位置并在缺口處合理放置被包圍的部件。



      團隊在開發(fā)過程中摒棄了“大而全”的幻想,比如像‘廴’只需主要考慮‘?’布局,無需過多考慮?、?、?、?等其他情況,轉(zhuǎn)而遵循實際漢字布局規(guī)則,逐步實現(xiàn)了覆蓋常見結(jié)構(gòu)的造字引擎。



      由于造字是基于IDS的,所以它天然就具有漢字的組成信息,因此用戶“造”出來的字經(jīng)平臺審核通過后也可以使用上述的拼字輸入法搜索出來,實現(xiàn)相互聯(lián)動。



      就像識典古籍研發(fā)團隊說的那樣,編輯器搜字、造字、復制字圖功能就像一個“萬能積木”,讓古籍整理這項傳承文明的事業(yè)不會因為“字”而被阻礙,而讓團隊自豪的是,當看到自己設(shè)計的造字工具能生成古籍中千變?nèi)f化的字形,甚至一些早已遺失在歷史中的字體重現(xiàn)屏幕時,“一種跨越時空的技術(shù)成就感油然而生”。

      03 將文化基因刻入數(shù)字未來

      識典古籍的價值不僅僅提高了古籍專業(yè)研究人員的工作效率,更是通過技術(shù)手段降低了古籍整理的門檻,使公眾參與成為可能。

      去年識典古籍平臺聯(lián)合全國22所高校,發(fā)起了“我是校書官”活動,吸引了1萬余名學生報名參加,其中許多人的專業(yè)都與古籍無關(guān)。

      這項活動的參與流程非常簡單,志愿者在平臺上領(lǐng)取任務,系統(tǒng)提供清晰的指導和要求。校對過程中,AI會輔助標識出可能存在的問題,志愿者只需重點關(guān)注這些區(qū)域即可。

      平臺還建立了質(zhì)量保障機制。所有校對結(jié)果會經(jīng)過多種審核,包括機器審核、專業(yè)人員審核等,在提高整理質(zhì)量的同時,也是人才培養(yǎng)的過程。

      在這項活動中,一些非專業(yè)的同學原本對古籍一無所知,但參加活動,校對三個月后,也算跨過了古籍研究的門檻,養(yǎng)成了閱讀古籍的習慣,更難能可貴的是,識典古籍以這種類似于眾包的模式,重塑了古籍整理生態(tài)。

      從這一視角來看,古籍數(shù)字化的價值遠遠超出了保護本身,它讓古籍內(nèi)容變得更加可用、易懂,為文化傳承和創(chuàng)新提供了基礎(chǔ)。

      全國高等院校古籍整理研究工作委員會副秘書長吳國武教授在接受媒體采訪時曾表示,“古籍相當于先人的知識體系,將經(jīng)典智慧為現(xiàn)代人所用,是非常重要的任務”,數(shù)字化后的古籍可以被更容易地檢索、分析和利用,為學術(shù)研究提供支持。

      更重要的是,數(shù)字化古籍還正在成為文化創(chuàng)新的源泉。從去年風靡全球的游戲“黑神話悟空”,到今年的動畫電影《哪吒2》,都是傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化的案例,而浩瀚的典籍文化遺產(chǎn)正是文化產(chǎn)業(yè)取之不盡的素材資源。

      根據(jù)官方公布的數(shù)據(jù),識典古籍平臺在數(shù)萬名來自高校、社會及字節(jié)跳動員工的古籍整理志愿者共同努力下,現(xiàn)已經(jīng)免費公開3萬余部古籍,每月有超240萬用戶訪問量。在2025年底,將發(fā)布4萬部古籍面向公眾開放。

      AI正在讓那些沉睡在圖書館庫房里的古籍蘇醒,重新跳動起來,融入當代人的文化生活之中。就像幾個世紀前,這些書籍影響著當時的文人學者那樣,繼續(xù)參與中華文明的演進與傳承。

      聲明:個人原創(chuàng),僅供參考

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      國家電網(wǎng)第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      國家電網(wǎng)第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      老滿說高考
      2026-04-24 20:13:49
      比鄭麗文更直接!洪秀柱訪問上海,上來就強調(diào)祖國要統(tǒng)一!

      比鄭麗文更直接!洪秀柱訪問上海,上來就強調(diào)祖國要統(tǒng)一!

      小嵩
      2026-04-26 20:15:03
      黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

      黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

      觀魚聽雨
      2026-04-24 23:08:32
      兵敗如山倒!國產(chǎn)新能源或已經(jīng)證明:中國壓根不需要二線豪華品牌

      兵敗如山倒!國產(chǎn)新能源或已經(jīng)證明:中國壓根不需要二線豪華品牌

      詩酒趁的年華
      2026-04-24 18:12:26
      國產(chǎn)“新 偉 哥”來了!中老年、基礎(chǔ)病友好!起效快副作用輕

      國產(chǎn)“新 偉 哥”來了!中老年、基礎(chǔ)病友好!起效快副作用輕

      路醫(yī)生健康科普
      2026-04-23 20:15:03
      約基奇談沖突:停止比賽了他還去得分;這么做不是想激勵隊友

      約基奇談沖突:停止比賽了他還去得分;這么做不是想激勵隊友

      懂球帝
      2026-04-26 13:16:09
      打起來了?德黑蘭傳出爆炸聲,特朗普算錯這賬,中方發(fā)布撤離通知

      打起來了?德黑蘭傳出爆炸聲,特朗普算錯這賬,中方發(fā)布撤離通知

      陳意小可愛
      2026-04-26 22:08:55
      張凌赫腳傷上了熱搜!車內(nèi)痛苦表情曝光!對接方回應

      張凌赫腳傷上了熱搜!車內(nèi)痛苦表情曝光!對接方回應

      麥芽是個小趴菜
      2026-04-26 16:58:21
      3000萬歐年薪!皇馬巨星要挾高層,不給就轉(zhuǎn)會,姆巴佩笑了

      3000萬歐年薪!皇馬巨星要挾高層,不給就轉(zhuǎn)會,姆巴佩笑了

      祥談體育
      2026-04-25 16:59:55
      美國華人吐槽:中國引以為傲的掃碼支付,其實就是最不智能的發(fā)明

      美國華人吐槽:中國引以為傲的掃碼支付,其實就是最不智能的發(fā)明

      花小貓的美食日常
      2026-04-26 11:12:34
      賴老師處理結(jié)果已出: 調(diào)離一線崗位,向家長道歉,取消評優(yōu)資格!

      賴老師處理結(jié)果已出: 調(diào)離一線崗位,向家長道歉,取消評優(yōu)資格!

      社會日日鮮
      2026-04-26 19:20:13
      中國西北舉行大規(guī)模空戰(zhàn)演習,250架戰(zhàn)機參演

      中國西北舉行大規(guī)模空戰(zhàn)演習,250架戰(zhàn)機參演

      午夜搭車a
      2026-04-26 18:08:28
      7國南海搞軍演,轉(zhuǎn)頭求中國救急?中方一句話:不會拉你一把

      7國南海搞軍演,轉(zhuǎn)頭求中國救急?中方一句話:不會拉你一把

      墨印齋
      2026-04-23 12:35:16
      “見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網(wǎng)笑柄

      “見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網(wǎng)笑柄

      妍妍教育日記
      2026-04-15 09:30:09
      張軍的妻子胡妮,兩人相識時胡妮才15歲,胡妮17歲時,兩人相戀

      張軍的妻子胡妮,兩人相識時胡妮才15歲,胡妮17歲時,兩人相戀

      童叔不飆車
      2026-04-25 10:07:21
      1-3!英博5連勝終結(jié)!玉昆升第4,中超助攻王誕生,61968人見證

      1-3!英博5連勝終結(jié)!玉昆升第4,中超助攻王誕生,61968人見證

      阿晞體育
      2026-04-26 22:26:22
      十大經(jīng)典DOS游戲,如今靠模擬器才能重溫

      十大經(jīng)典DOS游戲,如今靠模擬器才能重溫

      單機時代
      2026-04-26 18:38:22
      莫家蝶100米欄首秀13秒08奪冠創(chuàng)亞洲第1 劉景揚吳艷妮缺席本場比賽

      莫家蝶100米欄首秀13秒08奪冠創(chuàng)亞洲第1 劉景揚吳艷妮缺席本場比賽

      勁爆體壇
      2026-04-26 16:56:08
      倫敦租房驚現(xiàn)“僅限穆斯林”,上演“反向歧視”

      倫敦租房驚現(xiàn)“僅限穆斯林”,上演“反向歧視”

      墜入二次元的海洋
      2026-04-24 13:32:59
      如果馬寅初沒提出人口論,也沒有計劃生育,如今我國會怎么樣?

      如果馬寅初沒提出人口論,也沒有計劃生育,如今我國會怎么樣?

      舊史新譚
      2026-04-24 15:49:04
      2026-04-26 22:44:49
      洞見新研社
      洞見新研社
      專注商業(yè)與科技,深思五分鐘。
      280文章數(shù) 152關(guān)注度
      往期回顧 全部

      藝術(shù)要聞

      總投資35億!汾酒集團太原的地標大樓,呈現(xiàn)白酒文化!

      頭條要聞

      以色列政壇重大變局 內(nèi)塔尼亞胡迎來勁敵

      頭條要聞

      以色列政壇重大變局 內(nèi)塔尼亞胡迎來勁敵

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環(huán)王》的美劇,有第二季

      財經(jīng)要聞

      事關(guān)新就業(yè)群體,中辦、國辦發(fā)文

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      手機
      親子
      藝術(shù)
      家居
      房產(chǎn)

      手機要聞

      鴻蒙6,玻璃,光,和我

      親子要聞

      這西瓜遇到他,可真的倒霉啊

      藝術(shù)要聞

      總投資35億!汾酒集團太原的地標大樓,呈現(xiàn)白酒文化!

      家居要聞

      自然肌理 溫潤美學

      房產(chǎn)要聞

      新一輪教育大爆發(fā)來了!海口,開始瘋狂建學校!

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 久久凹凸视频| 激情 自拍 另类 亚洲| 天堂αv亚洲αv日韩在线| AV天堂中文字幕| 欧美人禽杂交狂配| 人妻在线日韩免费视频| 亚洲AV成人无码久久精品四虎 | 国产精品欧美一区二区三区| 1024你懂的国产精品| jizzjizzjizzjizz| 亚洲成人网站在线| av无码天一区二区一三区| 亚洲人成电影网站 久久影视| 天天影视色香欲综合久久| 天堂AⅤ大芭蕉伊人AV| 偷拍激情视频一区二区三区| 亚洲精品无码不卡在线播he| 国产乱子影视频上线免费观看| 狠狠色AV一区二区| 缙云县| 狠狠v日韩v欧美v| 国产精品丝袜一区二区三区| 日本高清aⅴ毛片免费| 久久国产精品免费一区二区三区| 乱人伦人妻中文字幕不卡| 中文字幕丅V在线观看| 海安县| 特黄特色大片免费播放器999| 少妇人妻大乳在线视频| 国产精品网站在线观看免费传媒| 成人免费无码视频在线网站 | 国产欧美日韩精品丝袜高跟鞋| 久久9精品视频| 波多野结衣一区二区三区高清| 2022AV一区在线| 亚洲精品乱码久久久久红杏| 久久99国产精品久久| 91久久精品美女高潮不断| 熟女福利导航| 双辽市| 亚洲精品久久久av无码专区|