專利檢索是專利行業(yè)的基礎(chǔ)工作。申請前的查新、專利訴訟過程中的無效和現(xiàn)有技術(shù)抗辯、專利風(fēng)險(xiǎn)評估、專利全景地圖或?qū)Ш降冗@些專利行業(yè)的日常工作都離不開檢索,甚至專利部門的流程和管理也都要時常去檢索專利的狀態(tài)、各種期限或者下載相關(guān)的官方文件。
專利檢索是耗時耗力又需要很多技巧的事情,需要檢索人員去理解技術(shù),編輯檢索式,最后從召回的檢索結(jié)果中選擇相關(guān)的專利。
多年來,業(yè)界都想利用AI去檢索專利,很多企業(yè)也都做過嘗試。大概的技術(shù)路線有這些種類。
一、建立分詞庫
收集大量的技術(shù)術(shù)語,建立一個分詞庫,用戶輸入一段內(nèi)容后,例如輸入如下這段內(nèi)容:
一種體積小、結(jié)構(gòu)緊湊、成本低廉的漏電、過載、短路保護(hù)模塊,包括電磁脫扣開關(guān)和控制電路,其中電磁脫扣開關(guān)在絕緣罩殼內(nèi)裝有按頭露出罩殼的復(fù)位按鈕、雙動觸點(diǎn)擺臂組合、電磁鐵、基板由上而下順序排列,罩殼的頂部設(shè)有與復(fù)位按鈕并列的輕觸按鈕,基板上電磁鐵前后分別是雙靜觸頭觸橋和雙動觸點(diǎn)排引出腳,通過控制電路檢測到漏電、過載、短路信號同時控制L極(火線)和N極(零線)電路的斷開,復(fù)位按鈕按下接通的整個機(jī)件。
系統(tǒng)會用分詞庫中收集的分詞對這些內(nèi)容進(jìn)行分詞,比如把漏電、短路、電磁這些詞匯分出來,與數(shù)據(jù)庫進(jìn)行匹配,把具有相關(guān)詞組的專利找出來。
這種方法的優(yōu)點(diǎn)是技術(shù)相對簡單,但缺點(diǎn)是檢索的質(zhì)量非常依賴于收集的分詞庫,分詞庫越豐富,召回的結(jié)果就可能越準(zhǔn)確。此外,由于檢索依賴分詞,現(xiàn)實(shí)中的詞匯是很難窮盡的,還有很多近義詞的問題,再好的分詞,也容易造成漏檢。完全依賴分詞把專利檢索做好是很難的。
2、語義搜索
這個檢索的邏輯是訓(xùn)練一個向量模型(embedding),將所有的專利都轉(zhuǎn)化向量,存入向量數(shù)據(jù)庫,當(dāng)用戶輸入一段技術(shù)方案后,也將用戶輸入的技術(shù)方案轉(zhuǎn)化為向量,然后將用戶輸入的內(nèi)容轉(zhuǎn)化的向量,與數(shù)據(jù)庫中存入的向量進(jìn)行匹配,在數(shù)學(xué)計(jì)算向量的近似度。相當(dāng)于把文本匹配的工作轉(zhuǎn)化為計(jì)算機(jī)上的計(jì)算工作。這種檢索方式的優(yōu)點(diǎn)是快速,缺點(diǎn)是準(zhǔn)確度很難保證,現(xiàn)有的開源模型很難滿足專利檢索的要求。專利檢索的要求不僅僅是整體上相關(guān)就可以,而且要精確度要求非常高,涉及很多技術(shù)領(lǐng)域的細(xì)節(jié)比對。所以單純的語義是很難滿足時間當(dāng)中的需求。
3、自動檢索式
對于傳統(tǒng)的專利檢索來說,檢索人員都是拿到檢索方案之后,根據(jù)檢索方案提取出關(guān)鍵檢索要素,再對組成檢索式。例如查找易清洗豆?jié){機(jī)的刀片,需要提取“易清洗”、“刀片”、“豆?jié){機(jī)”以及專利分類這些因素,然后將這些檢索要素組合成各種檢索式,再從數(shù)據(jù)庫中查找。AI的做法就是模仿人類去寫檢索式,把各國審查員的檢索式提取出來進(jìn)行訓(xùn)練,訓(xùn)練好的模型模仿檢索人員去寫檢索式,例如輸入如下這段內(nèi)容:
一種體積小、結(jié)構(gòu)緊湊、成本低廉的漏電、過載、短路保護(hù)模塊,包括電磁脫扣開關(guān)和控制電路,其中電磁脫扣開關(guān)在絕緣罩殼內(nèi)裝有按頭露出罩殼的復(fù)位按鈕、雙動觸點(diǎn)擺臂組合、電磁鐵、基板由上而下順序排列,罩殼的頂部設(shè)有與復(fù)位按鈕并列的輕觸按鈕,基板上電磁鐵前后分別是雙靜觸頭觸橋和雙動觸點(diǎn)排引出腳,通過控制電路檢測到漏電、過載、短路信號同時控制L極(火線)和N極(零線)電路的斷開,復(fù)位按鈕按下接通的整個機(jī)件。
系統(tǒng)會自動生成檢索式如下:
![]()
Maxipat的AI檢索式
模型會對這些檢索式進(jìn)行組合,檢索人員也可以根據(jù)情況進(jìn)行調(diào)整,直到檢索式達(dá)到滿意的效果。
4、基于Graph transformer的檢索
前面說到的語義搜索有個天然的缺陷,語義搜索將用戶輸入的文字轉(zhuǎn)化為向量,其實(shí)不是真正去理解這段內(nèi)容,Graph transformer模型不僅僅是將內(nèi)容轉(zhuǎn)化為向量,還需要將輸入的文字中的核心概念之間的關(guān)系梳理清楚,這樣的時候不僅是內(nèi)容的匹配,還有核心技術(shù)概念之間的關(guān)系匹配。相當(dāng)于先理解用戶輸入的這段內(nèi)容的關(guān)系,系統(tǒng)再去檢索。這樣檢索的結(jié)果會更加準(zhǔn)確。
![]()
Maxipat的GT搜索
綜合下來,目前的檢索效果是GT搜 > AI檢索式 > 語義搜索 > 分詞效果。當(dāng)然在實(shí)踐中,通常都是集中搜索方式組合,優(yōu)勢互補(bǔ)。從實(shí)測的效果來看,GT搜索在專利檢索中的優(yōu)勢會越來越大。
Maxipat致力于作為成為科技創(chuàng)新和知識產(chǎn)權(quán)工作的AI加速,主要包括輔助創(chuàng)新:提高研發(fā)的科技創(chuàng)新效率,通過problem-solution算法深層關(guān)聯(lián)到的真實(shí)技術(shù)方案,能夠跨領(lǐng)域進(jìn)行技術(shù)方案的深層挖掘和關(guān)聯(lián);智能搜索與分析:將專利搜索和報(bào)告制作借助AI實(shí)現(xiàn)智能化,包括智能查新、無效、FTO、Landscaping報(bào)告,采用GT搜索算法(graph transformer)(),系統(tǒng)真正做到理解概念后再搜索。目前開放注冊中。
感興趣的朋友可以通過以下三種方式填寫申請信息:
1. 請發(fā)郵件到郵箱:info@maxipat.com
2. 點(diǎn)擊文末閱讀全文;
3. 掃描以下二維碼
感興趣的朋友可以加筆者微信patentlight
首例基因技術(shù)藥物專利授權(quán)案牽動億萬產(chǎn)業(yè)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.