恭喜北京理工大學史樹敏獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜北京理工大學申請的專利一種基于高斯核函數(shù)的長文本檢索方法及系統(tǒng)獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產(chǎn)權局授予,授權公告號為:CN114328863B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權局官網(wǎng)在2025-05-06發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202111512377.1,技術領域涉及:G06F16/3329;該發(fā)明授權一種基于高斯核函數(shù)的長文本檢索方法及系統(tǒng)是由史樹敏;朱樂;黃河燕設計研發(fā)完成,并于2021-12-08向國家知識產(chǎn)權局提交的專利申請。
本一種基于高斯核函數(shù)的長文本檢索方法及系統(tǒng)在說明書摘要公布了:本發(fā)明涉及一種基于高斯核函數(shù)的長文本檢索方法及系統(tǒng),屬于信息檢索技術領域。本方法利用預訓練語言模型的語義建模能力計算長文本各段落與用戶檢索內(nèi)容的語義相似度,作為用戶點擊相關性的偽標簽,有效緩解了缺乏段落級別標注數(shù)據(jù)的問題。通過不同的高斯核函數(shù),將偽標簽映射為不同維度的相關性得分。利用線性層聚合長文本各段落得分來輸出用戶檢索內(nèi)容對于長文本整體的相關性得分,能夠讓不同語義相似度等級的段落為用戶點擊相關與否做出貢獻,增強了語義相似度與用戶點擊相關性的關聯(lián)程度,提升了長文本檢索模型的準確率。
本發(fā)明授權一種基于高斯核函數(shù)的長文本檢索方法及系統(tǒng)在權利要求書中公布了:1.一種基于高斯核函數(shù)的長文本檢索系統(tǒng),其特征在于,包括偽標簽計算模塊、高斯核映射模塊和輸出模塊;其中,偽標簽計算模塊負責對長文檔進行分段,并將得到的各個文本段落與用戶檢索內(nèi)容級聯(lián)后輸入預訓練語言模型中,得到文本特征交互向量;同時,將文本特征交互向量作為線性層的輸入,將輸出的用戶檢索內(nèi)容與長文本各段落相關性作為偽標簽;高斯核映射模塊負責將偽標簽通過不同高斯核函數(shù),由標量映射為得分向量;輸出模塊用于將屬于同一長文本的不同段落得分向量級聯(lián)為得分矩陣,將得分矩陣平均池化后放入線性層,判斷并整合用戶檢索內(nèi)容在不同高斯核函數(shù)下與長文本的相關性;上述模塊之間的連接關系為:偽標簽計算模塊的輸出端與高斯核映射模塊的輸入端相連;高斯核映射模塊的輸出端與輸出模塊的輸入端相連;首先,在偽標簽計算模塊中對長文本進行分段;先對分段截止點按優(yōu)先度分級,其中,標點符號優(yōu)先級高于指定最大段落長度,然后,將分段所得段落分別與用戶檢索內(nèi)容級聯(lián),并輸入至預訓練語言模型中,得到文本特征交互向量,最后,將所述文本特征交互向量放入線性層中,輸出用戶檢索內(nèi)容與長文本各段落的相關性,作為偽標簽;在偽標簽計算模塊中,預訓練語言模型得到文本特征交互向量Vi,如式1所示:Vi=BERTq,pj1其中,i的取值范圍為1、2、3、…、n,n指長文本可劃分段落數(shù)目的最大值;q為用戶檢索內(nèi)容,pj為長文本的第j個段落;所述線性層指全連接神經(jīng)網(wǎng)絡,將文本特征交互向量映射為相關性,如式2所示:R=W*Vi+b2其中,R表示模型輸出的相關性得分,W、b為模型參數(shù),能夠在模型訓練過程中通過反向傳播求解;Vi代表第i個段落與用戶檢索內(nèi)容的文本特征交互向量;在高斯核映射模塊中,首先初始化不同高斯核的均值和方差,其中,各個高斯核均值不同但方差系統(tǒng);然后,將偽標簽計算模塊輸出的偽標簽放入不同高斯核進行映射,將所得結(jié)果級聯(lián)在一起,構成得分向量;所述高斯核函數(shù)映射如式3所示:KRi=exp-Ri-μk2σk23其中,KRi表示,Ri為用戶檢索內(nèi)容q與第i個段落的偽標簽,μk、σk分別表示第k個高斯核的均值和方差,exp為指數(shù)函數(shù);在輸出模塊中,首先將長文本不同段落對應得分向量級聯(lián)在一起,得到得分矩陣;將得分矩陣平均池化后,輸入至線性層,輸出最終的用戶檢索內(nèi)容與長文本相關性打分;最后,利用MLP判斷在不同等級下長文本各段落對于最終用戶點擊相關性的貢獻。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或?qū)@麢嗳?a target="_blank" rel="noopener noreferrer nofollow" >北京理工大學,其通訊地址為:100081 北京市海淀區(qū)中關村南大街5號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。