<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      NLP把"蘋果"切成137塊:機器怎么比人還懂歧義

      0
      分享至

      2023年,Google搜索每天處理85億次查詢,其中23%包含歧義詞——"python"是蛇還是編程語言,"jaguar"是動物、汽車還是足球隊。人類靠上下文秒懂,機器卻得把每個詞切成碎片,逐塊貼標簽。這套"切碎-分類"的流水線,就是Token Classification(詞元分類)。

      它不是什么高端概念,而是所有語言模型的地基。沒有它,ChatGPT連"你好嗎"都接不住。

      從"bank"的噩夢開始:為什么機器必須"切詞"

      英語單詞"bank"有至少10種含義:河岸、銀行、庫存、傾斜、依賴……人類讀到"river bank"時,大腦自動激活"河岸"的語義網絡,抑制"銀行"的干擾。這種消歧能力來自數十年的語言經驗,機器沒有。

      早期的NLP系統用規則硬編碼:if 前面有"river" then bank=河岸。但規則寫不完。2018年BERT出現后,思路變了——讓模型自己學上下文模式。而學習的前提是:先把句子切成可計算的最小單元。

      這個切分過程叫Tokenization(詞元化)。英文按空格切太粗糙,"unhappiness"得拆成"un"+"happiness"才能讓模型理解否定前綴。中文更麻煩,"自然語言處理"可以切成"自然/語言/處理"或"自/然/語/言/處/理",不同切法,模型學到的關系完全不同。

      切完之后,真正的分類才開始。每個token要回答三個問題:它是什么實體?它扮演什么語法角色?它和其他token怎么組合?對應三大任務:命名實體識別(NER)、詞性標注(POS)、組塊分析(Chunking)。

      NER:在文本里抓"人名地名公司名"

      Named Entity Recognition(命名實體識別)是Token Classification最值錢的應用。金融公司用它從財報里抽公司名稱和金額,法務系統用它標記合同里的關鍵日期和當事人,醫療AI用它識別病歷中的藥品和劑量。

      標準NER標簽體系叫BIO:B(Begin,實體開始)、I(Inside,實體內部)、O(Outside,非實體)。句子"Tim Cook announced new iPhone"會被打成:Tim-B-PER、Cook-I-PER、announced-O、new-O、iPhone-B-PROD。

      2019年前,NER主要靠CRF(條件隨機場)和LSTM。模型看一個詞,同時看前后幾個詞的窗口,預測標簽。缺點是"近視"——遠距離的指代關系抓不住。比如"Apple said it would release...","it"指Apple,但LSTM可能漏掉。

      Transformer架構改變了游戲規則。BERT、RoBERTa、DeBERTa這些模型用"自注意力機制",讓每個token直接"看到"句子中所有其他token。距離不再是問題,"it"和"Apple"的關聯強度會被顯式計算。

      現在的SOTA(當前最優)模型在CoNLL-2003英文NER數據集上F1分數沖到97.5%,接近人類標注員的一致性水平(98%)。但別被數字騙了——這只是在干凈的新聞文本上。轉到社交媒體,用戶把"Micro$oft"故意拼錯,或者混用中英文,F1能掉到70%以下。

      POS和Chunking:語法結構的隱形腳手架

      Part-of-Speech Tagging(詞性標注)給每個token標語法角色:名詞、動詞、形容詞、介詞……看起來基礎,卻是句法分析的入口。搜索引擎用它理解查詢意圖:"book a flight"里book是動詞,"a good book"里book是名詞,排序算法得區別對待。

      英語POS標簽集最常用的是Penn Treebank的45類標簽,包括細分的NN(單數名詞)、NNS(復數名詞)、NNP(專有名詞單數)、NNPS(專有名詞復數)。中文用北大標注集,分33類。

      現代POS標注器準確率超過97%,但歧義仍在。"Time flies like an arrow"有五種語法分析,POS標注器通常只輸出概率最高的那種。理解幽默、雙關、詩歌?不是它的設計目標。

      Chunking(組塊分析)比POS高一層:把token聚成短語塊。句子"the quick brown fox jumps"會被切成[the quick brown fox][jumps]——名詞短語+動詞短語。這種"中間表示"在信息抽取里很有用:先定位名詞短語塊,再判斷哪個塊是主語、哪個是賓語。

      三種任務的關系像俄羅斯套娃:NER回答"這是什么實體",POS回答"這是什么詞性",Chunking回答"這些詞怎么抱團"。實際系統常把它們串起來:先POS標注,再基于詞性規則做Chunking,最后在名詞短語塊里跑NER。

      工業落地的三個暗礁

      論文里的97%準確率,到生產環境往往腰斬。第一個坑是領域遷移。醫療NER模型用到法律文本,"appeal"從"上訴"變成"吸引力",標簽全亂。2019年BioBERT的實驗證明,通用BERT在生物醫學NER上比領域預訓練版本低15個百分點。

      第二個坑是標注成本。高質量NER數據需要專家標注,醫療領域一個標注員一天只能標200條句子。弱監督學習試圖用規則自動生標簽,但噪聲會累積。Snorkel這類工具讓用戶寫標注函數,比如"if 詞在大寫且在公司后綴列表里 then B-ORG",再用概率模型融合多個函數的輸出。2020年Google用這種方法在100萬條數據上訓練,成本降到人工標注的1/50,但F1也掉了8個點。

      第三個坑是實時性。BERT-base有1.1億參數,在CPU上跑一條句子要100毫秒。搜索推薦場景要求10毫秒響應,必須蒸餾成小模型或者用ONNX加速。DistilBERT把層數砍半,速度提升60%,準確率只掉3%。更極端的量化方案把權重壓到INT8,再砍一半延遲。

      2023年,大模型(LLM)的興起帶來新變數。GPT-4做NER不需要專門訓練,直接給幾個示例就能zero-shot(零樣本)抽取。但成本是問題:抽100萬條實體,用BERT-base要10美元,用GPT-4 API要4000美元。而且LLM會"幻覺"——編造不存在的實體,這在金融合規場景是致命缺陷。

      現在的主流做法是"大小模型協同":LLM做冷啟動生成偽標簽,小模型在偽標簽上微調,最后人工校驗關鍵樣本。

      一個被忽略的細節:subword的陷阱

      BERT用的WordPiece切分器會把罕見詞拆成子詞。"Supercalifragilistic"變成['Super', '##cali', '##fragil', '##istic']。NER標注時,"Super"被標B-ORG,后面三個##cali等該標I-ORG還是O?

      標準做法是只給第一個subword標B/I,其余標X(忽略)。但這樣丟失了信息:模型看到"##cali"時,不知道它是"Supercali"的一部分還是獨立片段。一些新架構嘗試給所有subword標標簽,后處理時再合并,效果提升1-2%,但工程復雜度翻倍。

      中文的subword問題更隱蔽。BERT-wwm(全詞掩碼)把"自然語言"當一個整體掩碼,而不是掩"然"或"語"。這要求切分時知道詞邊界,但中文分詞本身就有歧義。"南京市/長江大橋"還是"南京/市長/江大橋"?不同切法,下游NER的"南京"和"長江大橋"實體邊界全變。

      2022年,哈工大的MacBERT提出用拼音和部首增強中文表征,在CLUENER數據集上F1提升2.3%。思路很樸素:機器不懂"河"和"湖"都有三點水,但給模型顯式輸入部首信息,它能更快學到地理實體的聚類。

      這些細節不會出現在論文標題里,但決定了產品能不能用。一個客服機器人把"轉人工"理解成"轉賬給人工",可能就是一個POS標注錯誤引發的連鎖反應。

      Token Classification的終極悖論是:它越準確,用戶越感覺不到它的存在。就像好的排版讓人專注內容而非字體,好的NLP系統讓用戶以為機器"真的懂了"。但拆開看,那只是一堆概率分布和標簽序列,在硅片上瘋狂計算。

      如果GPT-5能把NER、POS、Chunking全部內化到端到端生成里,這些中間任務會消失嗎?還是像編譯器優化一樣,從手寫匯編變成自動調度,但底層邏輯永遠需要有人理解?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男孩偷自行車后續:被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

      男孩偷自行車后續:被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

      潮鹿逐夢
      2026-04-07 11:42:53
      突發!伊朗大規模導彈襲擊,全球市場應聲跳水

      突發!伊朗大規模導彈襲擊,全球市場應聲跳水

      魏家東
      2026-04-07 14:12:21
      美媒稱美軍襲擊伊朗哈爾克島上的軍事目標

      美媒稱美軍襲擊伊朗哈爾克島上的軍事目標

      界面新聞
      2026-04-07 19:34:07
      女首富陳麗華離世,被曝生前已分好遺產,遲重瑞放棄生育獲百億

      女首富陳麗華離世,被曝生前已分好遺產,遲重瑞放棄生育獲百億

      萌神木木
      2026-04-07 12:18:10
      伊朗、沙特 石化設施遭襲 油價直線飆升 美油漲破116美元

      伊朗、沙特 石化設施遭襲 油價直線飆升 美油漲破116美元

      每日經濟新聞
      2026-04-07 13:41:19
      85歲富商陳麗華去世,和老公互稱董事長遲先生,百億遺產早有安排

      85歲富商陳麗華去世,和老公互稱董事長遲先生,百億遺產早有安排

      新金牌娛樂觀察家
      2026-04-07 11:30:32
      吃了20年才知道,它竟是“天然葉酸”,現在正當季,常吃身體棒

      吃了20年才知道,它竟是“天然葉酸”,現在正當季,常吃身體棒

      阿龍美食記
      2026-04-07 10:42:05
      鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個前提

      鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個前提

      李健政觀察
      2026-04-07 18:22:06
      理想汽車高管:張雪三缸機繞開所有海外專利壁壘 解決了國產大排摩托卡脖子問題

      理想汽車高管:張雪三缸機繞開所有海外專利壁壘 解決了國產大排摩托卡脖子問題

      快科技
      2026-04-07 10:06:17
      繼續斬首,再次成功,為何伊朗破不了以色列的斬首戰術?

      繼續斬首,再次成功,為何伊朗破不了以色列的斬首戰術?

      高博新視野
      2026-04-07 08:00:11
      特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有一個

      特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有一個

      通鑒史智
      2026-04-07 09:52:15
      快訊!俄羅斯強勢介入了!

      快訊!俄羅斯強勢介入了!

      達文西看世界
      2026-04-07 17:59:10
      反詐老陳連續4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

      反詐老陳連續4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

      臺州交通廣播
      2026-04-07 18:46:55
      又一艘護衛艦被擊沉,俄羅斯這次真急了

      又一艘護衛艦被擊沉,俄羅斯這次真急了

      史政先鋒
      2026-04-07 10:22:32
      痛心!安徽失蹤6歲女孩,已遇害,兇手是熟人,正臉照曝光

      痛心!安徽失蹤6歲女孩,已遇害,兇手是熟人,正臉照曝光

      魔都姐姐雜談
      2026-04-07 04:25:35
      郭艾倫正式辟謠:我沒有被騙 被詐騙是造謠 要追究法律責任

      郭艾倫正式辟謠:我沒有被騙 被詐騙是造謠 要追究法律責任

      醉臥浮生
      2026-04-07 13:50:59
      拆解車企2025年報 賽力斯為何能站穩高端局

      拆解車企2025年報 賽力斯為何能站穩高端局

      銠財
      2026-04-07 17:33:20
      他貪腐1.54億元被判死緩,三“虎”被指受賄數額特別巨大

      他貪腐1.54億元被判死緩,三“虎”被指受賄數額特別巨大

      上觀新聞
      2026-04-07 12:39:10
      外交部回應鄭麗文率團訪問大陸:臺灣問題是中國內政

      外交部回應鄭麗文率團訪問大陸:臺灣問題是中國內政

      澎湃新聞
      2026-04-07 15:42:27
      事故調查報告:湖南湘潭一致3死爆燃事故,公司負責人因盲目救火遇難

      事故調查報告:湖南湘潭一致3死爆燃事故,公司負責人因盲目救火遇難

      澎湃新聞
      2026-04-07 17:04:26
      2026-04-07 20:19:00
      賽博蘭博
      賽博蘭博
      專注搗鼓AI效率工具,試圖在這個時代留下數字分身的探索者。
      899文章數 10關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      英媒:伊朗最高領袖病重昏迷 無法參與任何國家決策

      頭條要聞

      英媒:伊朗最高領袖病重昏迷 無法參與任何國家決策

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      本地
      親子
      健康
      旅游
      軍事航空

      本地新聞

      跟著歌聲游安徽,聽古村回響

      親子要聞

      別讓過度檢查,毀了你的備孕路!

      干細胞抗衰4大誤區,90%的人都中招

      旅游要聞

      春日登高正當時 濟南天橋這些登山好去處別錯過

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關懷版