恭喜北京快確信息科技有限公司林遠平獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜北京快確信息科技有限公司申請的專利基于融合預訓練的文本抽取方法、系統及介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114398855B 。
龍圖騰網通過國家知識產權局官網在2025-05-06發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210038607.3,技術領域涉及:G06F40/126;該發明授權基于融合預訓練的文本抽取方法、系統及介質是由林遠平;甘偉超;喻廣博;鄒鴻岳;周靖宇設計研發完成,并于2022-01-13向國家知識產權局提交的專利申請。
本基于融合預訓練的文本抽取方法、系統及介質在說明書摘要公布了:本發明公開了基于融合預訓練的文本抽取方法、系統及介質,方法包括:獲取待抽取文本;通過預訓練模型對所述待抽取文本進行預訓練編碼,得到相應的字符向量;選取所述字符向量中的至少部分對鄰近文本進行語義提取,并拼接得到語義特征向量;對所述語義特征向量進行特征選擇并融合得到有效詞語特征向量;對所述有效詞語特征向量進行分流解碼,分別得到詞語分割結果和實體識別結果。通過基于預訓練模型框架進行編碼得到字符向量,并且融合字符向量中的至少部分進行鄰近文本的語義提取以學習文本語義信息,增強語義的學習能力,使得最終得到的詞語分割結果能有效避免邊界模糊的問題,提高文本提取的準確性。
本發明授權基于融合預訓練的文本抽取方法、系統及介質在權利要求書中公布了:1.一種基于融合預訓練的文本抽取方法,其特征在于,包括:獲取待抽取文本;通過預訓練模型對所述待抽取文本進行預訓練編碼,得到相應的字符向量;選取所述字符向量中的至少部分對鄰近文本進行語義提取,并拼接得到語義特征向量;對所述語義特征向量進行特征選擇并融合得到有效詞語特征向量;對所述有效詞語特征向量進行分流解碼,分別得到詞語分割結果和實體識別結果;所述通過預訓練模型對所述待抽取文本進行預訓練編碼,得到相應的字符向量之前,所述方法還包括:對所述預訓練模型進行對抗訓練;所述選取所述字符向量中的至少部分對鄰近文本進行語義提取,并拼接得到語義特征向量,包括:選取所述預訓練模型中若干個預設位置的編碼層作為目標編碼層;將所述目標編碼層的輸出結果分別輸入至一一對應連接的文本分類模型中進行鄰近文本的語義提取,所述文本分類模型的數量與目標編碼層相同,且各個文本分類模型的內核大小不相同;對每個文本分類模型的提取結果進行融合拼接,得到所述語義特征向量;將所述有效詞語特征向量分別輸入至已完成訓練的實體識別任務層和詞語分割層;通過LSTM網絡結構對全連接層的輸出進行長距離語義特征的提取,將LSTM網絡結構是輸出結果作為實體識別任務中解碼層的輸入,解碼層采用CRF進行實體標簽預測,最終輸出相應的實體標注;通過CRF解碼器對全連接層的輸出進行解碼,輸出所述有效詞語特征向量中的字符標記,得到詞語分割結果,所述字符標記包括實體開始標記、實體剩余標記以及非實體標記。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京快確信息科技有限公司,其通訊地址為:100000 北京市西城區阜成門外大街31號4層411D;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。