基于鲁棒交叉熵与梯度优化的安全强化学习方法

周娴玮; 张锟; 叶鑫

doi:10.11907/rjdk.231853

您当前的位置：

首页 >

文章列表页 >

基于鲁棒交叉熵与梯度优化的安全强化学习方法

计算机软件与理论 | 更新时间：2024-09-25

- 基于鲁棒交叉熵与梯度优化的安全强化学习方法
- Safe Reinforcement Learning Method Based on Robust Cross-Entropy and Gradient Optimization
- “在智能体安全执行任务领域，研究者提出了一种新算法，通过模型预测控制框架和优化方法，有效提升了智能体的安全性和效率。”
- 软件导刊 2024年23卷第9期页码：143-149
- 作者机构：
  
  华南师范大学软件学院，广东佛山 538200
- 作者简介：
  
  周娴玮（1980-），男，博士，华南师范大学软件学院讲师、硕士生导师，研究方向为机器人自动化技术
  张锟（1998-），男，CCF学生会员，华南师范大学软件学院硕士研究生，研究方向为安全强化学习。
  叶鑫（1996-），男，CCF学生会员，华南师范大学软件学院硕士研究生，研究方向为强化学习。
- 基金信息：
  
  广东省基础与应用基础研究基金项目(2020A1515110783);广东省企业科技特派员项目(GDKTP2020014000);佛山市高层次派驻人才项目(303475)
- DOI：10.11907/rjdk.231853
  中图分类号： TP391.4
- 纸质出版日期：2024-09-16，
  
  收稿日期：2023-08-10，
- 稿件说明：
移动端阅览
周娴玮,张锟,叶鑫.基于鲁棒交叉熵与梯度优化的安全强化学习方法[J].软件导刊,2024,23(09):143-149.

ZHOU Xianwei,ZHANG Kun,YE Xin.Safe Reinforcement Learning Method Based on Robust Cross-Entropy and Gradient Optimization[J].Software Guide,2024,23(09):143-149.
周娴玮,张锟,叶鑫.基于鲁棒交叉熵与梯度优化的安全强化学习方法[J].软件导刊,2024,23(09):143-149. DOI： 10.11907/rjdk.231853.

ZHOU Xianwei,ZHANG Kun,YE Xin.Safe Reinforcement Learning Method Based on Robust Cross-Entropy and Gradient Optimization[J].Software Guide,2024,23(09):143-149. DOI： 10.11907/rjdk.231853.

浏览量

下载量

CSCD

文章被引用时，请邮件提醒。

提交

工具集

关联资源

融合强化学习与迁移对抗的服装标注

基于强化学习的生成式人工智能综述

基于子图特征融合的链接预测方法

基于鲁棒交叉熵与梯度优化的安全强化学习方法

Safe Reinforcement Learning Method Based on Robust Cross-Entropy and Gradient Optimization

DOI：10.11907/rjdk.231853