恭喜上海浦東發展銀行股份有限公司陳廣浩獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜上海浦東發展銀行股份有限公司申請的專利智能體訓練方法、裝置、計算機設備和存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN113919482B 。
龍圖騰網通過國家知識產權局官網在2025-05-06發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111106047.2,技術領域涉及:G06N3/006;該發明授權智能體訓練方法、裝置、計算機設備和存儲介質是由陳廣浩;楊洋;李鋒;張琛;萬化設計研發完成,并于2021-09-22向國家知識產權局提交的專利申請。
本智能體訓練方法、裝置、計算機設備和存儲介質在說明書摘要公布了:本申請涉及一種智能體訓練方法、裝置、計算機設備和存儲介質。該方法包括:獲取多個經驗動作數據,經驗動作數據為進化種群中多個目標樣本智能體與環境交互學習的經驗動作;基于多個經驗動作數據,獲取初始強化學習智能體輸出的動作數據的獎勵信息;根據獎勵信息和預設的損失函數,對初始強化學習智能體的網絡參數進行更新;若初始強化學習智能體更新后的網絡參數與目標網絡參數相同,則結束對初始強化學習智能體的網絡參數的更新,得到訓練完成的強化學習智能體。本申請將進化算法和深度強化學習相結合,可以提高深度強化學習的學習效率和效果,從而更好的控制強化智能體完成連續控制任務。
本發明授權智能體訓練方法、裝置、計算機設備和存儲介質在權利要求書中公布了:1.一種智能體訓練方法,其特征在于,所述方法包括:獲取多個經驗動作數據,所述經驗動作數據為進化種群中多個目標樣本智能體與環境交互學習的經驗動作;所述經驗動作數據包括所述目標樣本智能體交互環境的環境狀態,以及所述目標樣本智能體響應于所述環境狀態后輸出的動作;所述智能體輸出的動作是控制機器人或自主交通工具的控制輸入的空間中的點;基于所述多個經驗動作數據,獲取初始強化學習智能體輸出的動作數據的獎勵信息;根據所述獎勵信息和預設的損失函數,對所述初始強化學習智能體的網絡參數進行更新;若所述初始強化學習智能體更新后的網絡參數與目標網絡參數相同,則結束對所述初始強化學習智能體的網絡參數的更新,得到訓練完成的強化學習智能體。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人上海浦東發展銀行股份有限公司,其通訊地址為:200001 上海市黃浦區中山東一路12號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。