南京大學;江蘇圖客機器人有限公司陳力軍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉南京大學;江蘇圖客機器人有限公司申請的專利一種基于生成式對抗神經網絡的高質量聲碼器模型獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115035904B 。
龍圖騰網通過國家知識產權局官網在2025-05-06發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210391848.6,技術領域涉及:G10L19/16;該發明授權一種基于生成式對抗神經網絡的高質量聲碼器模型是由陳力軍;劉佳;蔣松儒;陳星宇;鄢偉設計研發完成,并于2022-04-14向國家知識產權局提交的專利申請。
本一種基于生成式對抗神經網絡的高質量聲碼器模型在說明書摘要公布了:本發明公開了一種基于生成式對抗神經網絡的高質量聲碼器模型,該模型首先使用一個生成器模塊進行從音頻的Mel譜到波形形式的轉換,其由含多視野融合塊的Unet式沙漏形結構卷積神經網絡搭建;使用一個聲學特征提取器和多個鑒別器模塊對生成的波形進行多重角度的優化;其中聲學特征提取器使用傳統信號處理方法構建,鑒別器模塊由多尺度鑒別器、多周期鑒別器、多相位鑒別器三部分組成,基于卷積神經網絡搭建。本發明大幅降低了神經網絡的學習難度,節省訓練時間和計算資源開銷;利用了相位信息和時域上的自相似特征來對生成波形進行優化,獲得更高音質的波形;使用了局部化訓練策略,可以更自然流暢地合成任意長度的長音頻序列。
本發明授權一種基于生成式對抗神經網絡的高質量聲碼器模型在權利要求書中公布了:1.一種基于生成式對抗神經網絡的高質量聲碼器模型,其特征在于,包括以下步驟:步驟1,構建基于生成式對抗神經網絡的高質量聲碼器模型,該模型包括:生成器、聲學特征提取器、多尺度判別器、多周期判別器和多相位判別器;步驟2,從數據集獲取脈沖編碼調制PCM編碼的音頻數據,得到真實波形;步驟3,對步驟2中所得真實波形進行預處理,訓練集與驗證集劃分,訓練集的切片化,得到Mel譜和粗糙波形;步驟4,將步驟3中所得的Mel譜和粗糙波形送入生成器得到生成波形;步驟5,將步驟2中的真實波形與其對應的步驟4中的生成波形送入聲學特征提取器及三個判別器,即多尺度判別器、多周期判別器和多相位判別器,得到聲學特征、三個判別器的評分以及三個判別器的特征圖,再代入判別器損失函數計算得到三個判別器損失值,優化判別器參數;步驟6,將步驟5所述的聲學特征、判別器的評分和特征圖代入生成器損失函數計算得到生成器損失,優化生成器參數;重復步驟5和6的訓練過程,直到聲碼器模型收斂;步驟7,使用步驟3中所得驗證集數據對進行模型性能評估,完成基于生成式對抗神經網絡的高質量聲碼器模型的構建和訓練。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京大學;江蘇圖客機器人有限公司,其通訊地址為:210046 江蘇省南京市棲霞區仙林大道163號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。