人工智能技術(shù)正以驚人的速度發(fā)展,各類大模型層出不窮。無論是聊天機器人、圖像生成還是各行業(yè)的專用模型,都對海量高質(zhì)量的數(shù)據(jù)存在強烈需求。近年來,大模型訓練參數(shù)規(guī)模不斷攀升,與之相伴的是對訓練語料規(guī)模和質(zhì)量更高的要求。
對于希望利用人工智能挖掘技術(shù)情報的企業(yè)來說,專利文獻是一座巨大的知識寶庫。專利文獻包含了發(fā)明的背景、技術(shù)方案、實施例和法律狀態(tài)等信息,對于訓練AI模型理解專業(yè)技術(shù)語言、自動化科技信息分析等都有極高價值。可以說,AI的發(fā)展已經(jīng)走到需要深度處理專利數(shù)據(jù)的階段。
中國每年的專利申請量多年位居全球第一。巨大的中國專利數(shù)據(jù)背后,是海量的技術(shù)信息和法律信息的沉淀。專利文獻詳細記錄了發(fā)明創(chuàng)造的技術(shù)細節(jié)、實施方式,以及各類法律狀態(tài)。這些信息不僅對科研人員有價值,對于企業(yè)了解行業(yè)技術(shù)動向、避免侵權(quán)風險、發(fā)現(xiàn)合作伙伴也至關(guān)重要。
中國專利數(shù)據(jù)是一座亟待深度開采的富礦。在人工智能和大數(shù)據(jù)技術(shù)的加持下,我們完全有機會從中提煉出高價值的技術(shù)情報和經(jīng)濟情報。對于擁有世界第一規(guī)模的專利數(shù)據(jù)的中國來說,這無疑是一筆巨大的財富。如果能夠善加利用,中國有望在全球技術(shù)創(chuàng)新情報領(lǐng)域占據(jù)優(yōu)勢地位。
盡管中國擁有如此豐富的專利數(shù)據(jù)資源,但當前中國企業(yè)要批量獲取中國全量專利數(shù)據(jù)并非易事。按照現(xiàn)行規(guī)定,公眾和研究機構(gòu)并不是無法獲得專利數(shù)據(jù),但過程相對繁瑣,存在多方面的限制。雖然提供了專利數(shù)據(jù)批量下載服務(wù),但需要先在知識產(chǎn)權(quán)數(shù)據(jù)資源公共服務(wù)系統(tǒng)上注冊賬號并提出申請,經(jīng)審批后才能獲取數(shù)據(jù),而且只能獲取近一個月左右的數(shù)據(jù),要獲取歷史全量數(shù)據(jù),要走另外的申請流程,存在名額或資質(zhì)限制。相比之下,美國等國家在這方面要開放得多。例如,美國專利商標局提供公開的批量數(shù)據(jù)下載系統(tǒng)(ODP)和多種API接口,任何公眾都可以通過其官網(wǎng)自由檢索并批量下載專利與商標數(shù)據(jù),不需要逐案申請權(quán)限。
如果專利數(shù)據(jù)能夠更加開放,其帶來的好處將是全方位的。
首先,對人工智能技術(shù)的促進將十分顯著。開放的數(shù)據(jù)意味著更多樣本可用于訓練模型,模型的專業(yè)性和準確性都會提升。比如,專利數(shù)據(jù)涵蓋多個技術(shù)領(lǐng)域,開放后可用于訓練垂直領(lǐng)域的AI模型,讓AI更懂專業(yè)技術(shù)語言、熟悉法律術(shù)語,推動“AI+知識產(chǎn)權(quán)”的創(chuàng)新應用。
其次,對于知識產(chǎn)權(quán)事業(yè)本身也是巨大的推動。開放數(shù)據(jù)可以帶來更透明、高效的專利服務(wù):企業(yè)可以更方便地檢索現(xiàn)有專利,避免重復研發(fā);法律人士可以快速查詢專利法律狀態(tài),提高維權(quán)效率;政府部門和研究機構(gòu)可以基于數(shù)據(jù)分析科技發(fā)展趨勢,制定更科學的創(chuàng)新政策。專利數(shù)據(jù)的開放將孕育一個活躍的創(chuàng)新生態(tài),各方圍繞數(shù)據(jù)開展增值服務(wù),反過來又激發(fā)更多專利申請和技術(shù)轉(zhuǎn)化,形成良性循環(huán)。
第三,開放專利數(shù)據(jù)還能幫助企業(yè)打造自己的知識庫。很多大中型企業(yè),特別是高科技企業(yè),都希望建立內(nèi)部的專利數(shù)據(jù)庫或情報分析系統(tǒng)。如果國家提供權(quán)威完整的數(shù)據(jù)下載,這些企業(yè)就能低成本獲取養(yǎng)料,構(gòu)建起覆蓋本行業(yè)專利的知識圖譜或檢索平臺。在此基礎(chǔ)上,再結(jié)合AI技術(shù),這些知識庫可以變得越來越聰明,可以回答技術(shù)工程師提出的專業(yè)問題,提供相關(guān)專利的要點;再如競品監(jiān)測系統(tǒng),可以自動跟蹤競爭對手的新專利動態(tài)等。企業(yè)的創(chuàng)新效率和風控能力都將因為數(shù)據(jù)的充分利用而得到提高。
第四,開放數(shù)據(jù)對于整個數(shù)字經(jīng)濟和科技創(chuàng)新的意義也不容小覷。專利數(shù)據(jù)作為重要的公共數(shù)據(jù),其開放將賦能制造業(yè)、新能源、醫(yī)療、通信等各個行業(yè)。許多行業(yè)中的卡脖子難題,或許可以在開放的專利數(shù)據(jù)庫中找到靈感和方案。
總之,數(shù)據(jù)開放的紅利將通過人工智能的橋梁,源源不斷地輸送到實體經(jīng)濟中去,最終提升我國的科技競爭力和創(chuàng)新驅(qū)動力。
以下是幾點專利數(shù)據(jù)開發(fā)的具體的建議:
第一,允許自由下載過往全部專利數(shù)據(jù)。國家應當至少放寬對歷史存量專利數(shù)據(jù)的獲取限制。也就是說,已經(jīng)公開發(fā)布的所有歷年專利文獻(包括說明書全文、附圖、法律狀態(tài)等信息),都應該提供自由下載途徑。這些數(shù)據(jù)本就是公開信息,理應讓更多主體便捷獲取。例如,可以在國家知識產(chǎn)權(quán)局官方網(wǎng)站上開放類似于美國BDSS的批量下載入口。用戶無需逐一申請,經(jīng)簡單注冊即可根據(jù)需要批量下載指定年份、類型的專利數(shù)據(jù)。對于數(shù)據(jù)下載量特別巨大的用戶,可以通過技術(shù)手段防止濫用,但總體原則應是能開放的盡量開放。通過降低門檻,鼓勵企業(yè)、科研機構(gòu)廣泛使用中國的專利數(shù)據(jù),才能真正發(fā)揮數(shù)據(jù)要素的價值。
第二,提升專利數(shù)據(jù)獲取的效率與時效。在擴大開放的同時,也要注重用戶體驗。建議進一步簡化獲取流程,對于合理的數(shù)據(jù)需求不再設(shè)置繁瑣的審批。可以考慮推出開放API接口,方便程序化地按需提取最新的專利數(shù)據(jù)動態(tài)。同時,應提高數(shù)據(jù)更新頻率,盡量縮短專利從公開到對外提供數(shù)據(jù)的時間間隔。只有做到實時、同步,專利數(shù)據(jù)才能真正服務(wù)于快節(jié)奏的技術(shù)創(chuàng)新活動。此外,還可以完善文檔和支持,幫助用戶更高效地利用數(shù)據(jù)。例如發(fā)布詳細的專利數(shù)據(jù)格式說明、示例代碼等,讓開發(fā)者在構(gòu)建應用時少走彎路。
第三,利用AI技術(shù)對專利數(shù)據(jù)進行標準化處理。專利文獻由于年代久遠、來源多樣,格式上存在不統(tǒng)一、質(zhì)量參差不齊的問題。例如,不同時期的專利文本編碼格式不同,老專利的掃描圖像質(zhì)量不佳,等等。建議國家牽頭,運用OCR識別、自然語言處理等AI技術(shù),對存量專利數(shù)據(jù)進行清洗和標準化:統(tǒng)一文本格式,清除冗余信息,關(guān)聯(lián)分散的引文、法律狀態(tài)和專利族信息,甚至可以為專利附圖自動生成說明標簽。這樣的預處理將大大提高數(shù)據(jù)的可用性,讓后續(xù)利用者省去繁雜的數(shù)據(jù)清洗工作。在此基礎(chǔ)上,完全可以進一步訓練專用的“適用于中國專利的Embedding模型”。企業(yè)和研究者使用預訓練的向量模型,在此基礎(chǔ)上進一步開發(fā),釋放專利大數(shù)據(jù)的經(jīng)濟價值。
在人工智能時代,開放專利數(shù)據(jù)已是大勢所趨。一方面,我們擁有全球最多的專利技術(shù)文獻,這是發(fā)展人工智能和數(shù)字經(jīng)濟的巨大優(yōu)勢;另一方面,唯有開放才能將這份優(yōu)勢真正轉(zhuǎn)化為創(chuàng)新動力。開放專利數(shù)據(jù),不僅是為企業(yè)和研究者提供便利,更是為國家在新一輪科技競爭中奠定勝局提供堅實的基礎(chǔ)。在保障國家信息安全和商業(yè)機密的前提下,讓蘊藏于專利文獻中的寶貴財富流動起來、活躍起來。可以預見,一個數(shù)據(jù)充分開放、AI深度參與的知識產(chǎn)權(quán)強國,將在未來的全球創(chuàng)新版圖中占據(jù)舉足輕重的地位。
Maxipat致力于作為成為科技創(chuàng)新和知識產(chǎn)權(quán)工作的AI加速器,主要包括輔助創(chuàng)新:提高研發(fā)的科技創(chuàng)新效率;智能搜索與分析:將專利搜索和報告制作借助AI實現(xiàn)智能化,包括智能查新、無效、FTO、Landscaping報告;投資助手:快速生成投資賽道報告、專利購買篩選、專利轉(zhuǎn)化評估。目前開放注冊中。輔助科技創(chuàng)新和知識產(chǎn)權(quán)工作的AI智能體
感興趣的朋友可以通過以下三種方式填寫申請信息:
1. 請發(fā)郵件到郵箱:info@maxipat.com
2. 點擊文末閱讀全文;
3. 掃描以下二維碼
感興趣的朋友可以加筆者微信patentlight
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.