当前位置：文档库 › 强化学习研究综述

强化学习研究综述

ｔ期

１引言

高阳等：强化学习研究综述

智能ａｇｅｎｔ的一个主要特征是能够适应未知环境．其中学习能力是智能ａｇｅｎｔ的关键属性之一．在机器学习范畴，根据反馈的不同，学习技术可以分为监督学习（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、非监督学习（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）和强化学习（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）三大类．其中强化学习是一种以环境反馈作为输人的、特殊的、适应环境的机械学习方法．从２０世纪８０年代末开始，随着对强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一Ｌｌ’“，

本文对国内外强化学习的研究现状进行综述．首先解释强化学习的原理、结构和主要算法；其次对强化学习的４个主要研究方向，如部分感知、函数估计、多ａｇｅｎｔ强化学习和偏差，分别进行综述．最后介绍强化学习的主要应用和未来研究方向．

２强化学习

２．１强化学习原理和结构

所谓强化学习是指从环境状态到动作映射的学习，以使动作从环境中获得的累积奖赏值最大，该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为，而是通过试错（ｔｒｉａｌ—ａｎｄ—ｅｒｒｏｒ）来发现最优行为策略．它通常包括两个方面：一是将强化学习作为一类问题；二是指解决这类问题的一种技术．如果将强化学习作为一类问题，目前的学习技术大致分成两类：一类是搜索ａｇｅｎｔ的行为空间，以发现ａｇｅｎｔ最优的行为，通常可以通过遗传算法等搜索技术实现；另一类是采用统计技术和动态规划方法来估计在某一环境状态下的动作的效用函数值．研究人员将这种学习技术特指为强化学习技术。“．在本文中认为强化学习足一种学习技术．它是从控制论、统计学、心理学等相关学科发展而来，最早可以追溯到巴普洛夫的条件反射实验．但直到２０世纪８０年代末、９０年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用，并被认为是设计智能ａｇｅｎｔ的核心技术之一‘“．

标准的ａｇｅｎｔ强化学习框架结构如图１所示．ａｇｅｎｔ由状态感知器Ｉ、学习器Ｌ和动作选择器Ｐ三个模块组成．状态感知器１把环境状态ｓ映射

成ａｇｅｎｔ内部感知ｉ｝动作选择器Ｐ根据当前策略选择

动作ｎ作用于环境Ｗ；学习器Ｌ根据环境状态的奖赏

值ｒ以及内部感知ｉ，更新ａｇｅｎｔ的策略知识．ｗ在动作

ｎ的作用下将导致环境状态的变迁ｓ７．强化学习技术的

基本原理是：如果ａｇｅｎｔ的某个动作导致环境正的奖赏

（强化信号），那么ａｇｅｎｔ以后产生这个动作的趋势便会加强；反之ａｇｅｎｔ产生这个动作的趋势减弱．

既然强化学习的目标是学习一个行为策略ｚ：ｓ一图１强化学习的框架结构Ｆｉｇ．１Ｔｈｅｆｒａｍｅｗｏｒｋｏｆｒｅｉｎｇｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ

Ａ，使ａｇｅｎｔ选择的动作能够获得环境最大的奖赏．但在多数问题中，往往需要考虑ａｇｅｎｔ行

为的长期影响．因此需要定义一个目标函数来表明从长期的观点确定什么是优的动作．通常

１期高阳等：强化学习研究综述

强化学习具有泛化能力．强化学习中的映射关系包括ｓ—Ａ，ｓ—Ｒ，Ｓ×Ａ—Ｒ，ｓ×Ａ斗ｓ等．函数估计本质就是用参数化的函数逼近这砦映射．

用算子ｒ来表示式（６）．假设初始的值函数记为砜，则学习过程产生的值函数逼近序列为

Ｖｏ，ｒ（Ｖ。），ｒ（ｒ（Ｖ。）），ｒ（Ｆ（ｒ（Ｖ０））），…．

在经典的强化学习算法中，值函数采用策略

查找表（１００ｋｕｐ—ｔａｂｌｅ）保存．在函数估计中，采用

参数化的函数替代策略查找表．此时，强化学习

基本结构如图３所示．记ｖ为目标函数，Ｆ为估

计函数，则Ｍ：Ｖ一驴为函数估计算子．假设值函

数初值为砜，则学习过程中产生的值函数序列为

Ｖ。，Ｍ（Ｖｏ），ｒ（Ｍ（Ｖｏ）），Ｍ（ｒ（Ｍ（Ｖ。））），

Ｆ（Ｍ（Ｆ（Ｍ（Ｖｏ）））），…。．甲３个，函茎估计强譬兰？的埠架结构因此，类似于Ｑ＿学习算法，函数估计强化学…ｔｉｎｏｆｒｅｉｎｆｏｒｃｅｍ—ｌｅａｒｎｉｎｇ习算法迭代公式做以下修改

Ｑ（ｓ，ｏ）一（１口）Ｖ（ｓ柚）＋ｄ（ｒ（ｓ，口，ｓ’）＋ｍａｘＦ（５’，ａ’））（１７）

口

ｉｚ（ｓ，Ⅱ）一Ｍ（Ｑ（５，ａ））（１８）在函数估计强化学习中，同时并行两个迭代过程：一是值函数迭代过程工１，另一是值函数逼近过程Ｍ．因此，Ｍ过程逼近的正确性和速度都将对强化学习产生根本的影响．目前函数估计的方法通常采用有导师监督学习方法，如状态聚类“４１１“、函数插值““、函数拟合、决策树“…、人工神经网络ｏ”和ＣＭＡＣｃ”３等方法．

状态聚类将整个状态空间分成若干区域，在同一区域的状态认为其值函数相等．于是一个连续或较大规模的ＭＤＰ问题被离散化为规模较小的ＭＤＰ问题．状态聚类最简单的方法是区格法，它将状态空间的每一维等分为若干区间，而将整个状态空间划分为若干相同大小的区域，对二维来说就是区格划分．更复杂的划分方法是变步长划分和三角划分，采用状态聚类方法的函数估计强化学习已经被证明是收敛的“…．需要指明的是，尽管状态聚类强化学习是收敛的，但并不一定收敛到原问题的最优解上．要使收敛的值函数达到一定的精度，状态聚类的步长不能太大，因此对于大规模ＭＤＰ问题，它仍然面临着“维数灾难”的困难．线性插值和多线性插值是状态聚类的改进，它并不将一个区间（或区格）的值函数设为一个值，而是对顶点进行线性插值，从而可以取得更好的性能．Ｄａｖｉｅｓ等研究在一个二维的问题上，使用１１×１１—１２１的区格上的双线性插值便可以取得３０ｌ×３０１—９０６０１的区格法相当的性能口…．线性插值和多线性插值也已被证明是收敛的，但其仍然面临“维数灾难”的困难．而非线性插值则不能保证收敛性ｏ“．

目前函数估计强化学习研究的热点是神经网络方法、线性拟合方法等．虽然这些可以大幅度提高强化学习的速度，但并不能够保证收敛性．因此，研究既能保证收敛性，又能提高收敛速度的新型函数估计方法，仍然是学者们研究的重点之一口“．

７多ａｇｅｎｔ强化学习

多ａｇｅｎｔ系统是另一种形式的非马尔可夫环境，多ａｇｅｎｔ强化学习机制被广泛应用到

１期岛阳等：强化学习研究综述

等”１．从目前国际研究看来，强化学习偏差研究内容主要包括两方面：一是先验知识以何种形式影响ａｇｅｎｔ的强化学习过程；二是ａｇｅｎｔ如何得到这个启发知识．Ｅｌ前研究着重于第一方面，而对于启发知识通常总是由设计人员给出．

强化学习整形技术主要有两种方法：一是构造导师ａｇｅｎｔ；二是将先验知识直接综合到强化学习算法中．早期的研究主要集中在第一种方法．图７是具有导师ａｇｅｎｔ的强化学习结构图．

剧７具有导帅ａｇｅｎｌ的强化学习整形结构

Ｆｉｇ７Ｔｈｅ

ｓｈａｐｐｉｎｇ

ａｒｃｈｉｔｅｃｔｕｒｅｏｆｒｅｉｎｆｏｒｃｅｍｅｎｔ

ｌｅａｒｎｉｎｇｗｉｔｈａｄｖｉｓｏｒａｇｅｎｔ

图７中导师ａｇｅｎｌ同样接受环境状态的输入，然后根据此输人提供一个行为指导给学习ａｇｅｎｔ．学习ａｇｅｎｔ同时接受环境的奖惩信号和导师ａｇｅｎｔ的行为指导，并根据这些信息学习ａｇｅｎｔ的行为策略．在Ｌｉｎ等的工作中，学习ａｇｅｎｔ在问题求解过程中完全接受导师ａ—ｇｅｎｔ的指导行为，并以此更新自己的行为策略。８’３…．在Ｃｌｏｕｓｅ等研究的系统中，学习ａｇｅｎｔ只是偶尔接受导师ａｇｅｎｔ的指导行为ｏ…．

由于构造导师ａｇｅｎｔ将增加软件系统的系统复杂度，因而在目前强化学习整形研究中通常采用第二种方法．Ｍａｃｌｉｎ等采用ｉｆ－ｔｈｅｎ规则，通过基于知识的神经网络技术将导师的指导行为直接编译到学习ａｇｅｎｔ的策略中“１］；相似地，Ｇｏｒｄｏｎ等也采用ｉｆ—ｔｈｅｎ规则，然后转化成可操作性的规则插人到遗传算法的种群中¨“．尽管研究者采用了不同的方法将先验知识综合到强化学习系统中，但每一种方法都能很好地昆示收敛性．

９强化学习应用

由于强化学习在大空间、复杂非线性系统中具有良好的学习性能，使其在实际中获得越来越广泛的应用．强化学习的应用主要可以分为四类：制造过程控制、各种任务调度、机器人设计和游戏．

Ｍｏｏｒｅ等研究如何将强化学习应用到实际制造过程控制中“．一个具体的实验例是包装行业中生产线上如何确保包装容器符合特定的规格．Ｍｏｏｒｅ等描述了一种综合式动态规划方法进行生产线控制．蒋国飞等人在倒立摆控制中应用Ｑ学习算法““，研究表明强化学习方法性能超过了工人手工操作和传统的控制器．

同样，强化学习也被应用到各种各样调度任务中，典型的应用包括电梯调度、车间作业调度“…、交通信号控制［４”以及网络路由选择．ＲｏｂｅｒｔＣｒｉｔｅｓ等研究了在高层建筑中利用强化学习的多个电梯的调度算法ｏ“．这个算法综合了强化学习和前馈神经网络．实验结果表明，这个学习算法比现有８种电梯调度算法性能更优．ＴｈｏｍａｓＤｉｔｔａｒｉｃｈ等在车间调度应ｔ｝｝ｊＴＤ（ａ）算法，一系列应用表明强化学习可以成功地解决组合优化问题．

强化学习在机器人中的应用最为广泛．除了可以应用强化学习技术控制机器人的手臂外，还可以用来学习多个机器人的协商行为．典型的应用如Ｃｈｒｉｓｔｏｐｈｅｒ提出的控制机器人

强化学习研究综述

作者：高阳，陈世福，陆鑫

作者单位：南京大学计算机软件新技术国家重点实验室,南京,210093

刊名：

自动化学报

英文刊名：ACTA AUTOMATICA SINICA

年，卷(期)：2004,30(1)

被引用次数：84次

参考文献(48条)

1.Tsitsiklis;John N Asynchronous stochastic approximation and Q-learning 1994(03)

2.Watkins P Dayan Q-learning 1992(03)

3.Sutton R S Learning to predict by the methods of temporal differences 1988

4.Weiss G;Dillenbourg P What is multi in multiagent learning? 1998

5.Peter Stone;Manuela Veloso Team-partitioned, opaque-transition reinforcement learning 1999

6.Roy N;Pineau J;Thrun S Spoken dialogue management using probabilistic reasoning[外文会议] 2000

7.HOLLAND J H Escaping brittleness: The possibilities of general-purpose learning algorithms applied to parallel rulebased systems 1986

8.Li Ning;GaoYang;Lu Xin A learning agent based on reinforcement learning[期刊论文]-Journal of Computer Research and Development 2001(09)

9.Kaelbling L P;Littman M L;Moore A W Reinforcement learning: A survey 1996(02)

10.THRUN S Learning to play the game of chess 1995

11.Peter Stone Layered Learning in Multi-Agent Systems: A Winning Approach to Robotic Soccer 2000

12.Yang Yu-Pu;Ou Hai-Tao Self-organized control of traffic signals based on reinforcement learning and genetic algorithm[期刊论文]-ACTA Automation Sinica(in Chinese) 2002(04)

13.Jiang Guo-Fei;Wu Cang-Pu Inventory control using Q-learning and neural networks 1999(02)

14.Jiang Guo-Fei;Wu Cang-Pu Learning to control an inverted pendulum using Q-learning and neural networks[期刊论文]-ACTA Automation Sinica(in Chinese) 1998(05)

15.Moore A W Variable resolution dynamic programming: Efficiently learning action maps in multivariate real valued spaces 1991

16.Gordon D;Subramanian A multistrategy learning scheme for agent knowledge acquisition 1993(04)

17.Samuel A L Some studies in machine learning using the game of checkers[外文期刊] 1959

18.Rummery G;Niranjan M On-line Q-learning using connectionist systems 1994

19.Kaelbling L P A situated automata approach to the design of embedded agents[外文期刊] 1991(04)

20.SINGH S Agents and reinforcement learning 1997

21.Maclin R;Shavlik J W Incorporating advice into agents that learn from reinforcements 1994

22.Clouse J A Learning from an automated training agent 1996

23.Lin Long-Ji Scaling up reinforcement learning for robot control 1993

24.Lin Long-Ji Self-improving reactive agents based on reinforcement learning, planning and teaching 1992

25.Tham C K;Prager R W A modular Q-learning architecture for manipulator task decomposition 1994

26.GAO Yang;Lu xin;Li Ning;Chen Shi-Fu An adaptive rule extracting algorithm in probabilistic plan [期刊论文]-Journal of Nanjing University 2003(02)

27.Sun R;Sessions C Extracting plans from reinforcement learners 1998

28.Sutton R S;Barto A G;Williams R Reinforcement learning is direct adaptive optimal control[外文期刊] 1991(02)

29.Takuya Ohko;Kazuo Hiraki;Yuichiro Anzai Learning to reduce communication cost on task negotiation among multiple autonomous mobile robots 1996

30.GAO Yang;Zhou Zhi-Hua;He Jia-Zhou;Chen Shi-Fu Research on Markov game-based multiagent reinforcement learning model and algorithms[期刊论文]-Journal of Computer Research and Development 2000(03)

31.Littman M Markov games as a framework for multi-agent reinforcement learning 1994

32.Tuomas W Sandholm;Robert H Crites On multiagent Q-learning in a semi-competitive domain 1996

33.Narendra P;Sandip S;Maria Gordin Shared memory based cooperative coevolution[外文会议] 1998

34.Littman M L Markov games as a framework for multi-agent reinforcement learning 1994

35.Pan Gu A framework for distributed reinforcement learning 1996

36.Tan M Multi-agent reinforcement learning: independent vs. cooperative agents 1993

37.Sutton R S Open theoretical questions in reinforcement learning 1999

38.Gordon G J Stable function approximation in dynamic programming 1995

39.Davies S Multidimensional triangulation and interpolation for reinforcement learning[外文会议] 1997

40.Dayan P;Hinton G E Feudal reinforcement learning 1993

41.Sutton R S Generalization in reinforcement learning: Successful examples using sparse coarse coding 1996

42.Crites R H;Barto A G Elevator group control using multiple reinforcement learning agents[外文期刊] 1998(02)

43.McCallum A K Reinforcement learning with selective perception and hidden State 1996

44.Moore A W The parti-game algorithm for variable resolution reinforcement learning in multidimensional state spaces 1994

45.SINGH S;Jaakkola T;Jordan M I Reinforcement learning with soft state aggregation 1995

46.Leslie Pack Kaelbling;Michael L Littman;Anthony R Cassandra Planning and acting in partially observable stochastic domains[外文期刊] 1998

47.Lovejoy W S A survey of algorithmic methods for partially observed Markov decision processes 1991

48.Horiuchi T;Katai O Q-PSP learning: An exploitation-oriented Q-learning algorithm and its applications 1999(05)

本文读者也读过(4条)

1.陈宗海.杨志华.王海波.盛捷.CHEN Zong-hai.YANG Zhi-hua.WANG Hai-bo.SHENG Jie从知识的表达和运用综述强化学习研究[期刊论文]-控制与决策2008,23(9)

2.张汝波.顾国昌.刘照德.王醒策.ZHANG Rubo.GU Guochang.LIU Zhaode.WANG Xingce强化学习理论、算法及应用[期刊论文]-控制理论与应用2000,17(5)

3.陈学松.杨宜民.CHEN Xue-song.YANG Yi-min强化学习研究综述[期刊论文]-计算机应用研究2010,27(8)

4.李珺.潘启树.洪炳殚.LI Jun.PAN Qi-shu.HONG Bing-rong一种基于案例推理的多agent强化学习方法研究[期刊论文]-机器人2009,31(4)

引证文献(86条)

1.黄蔚.刘忠.刘全RL_Spider:一种自主垂直搜索引擎网络爬虫[期刊论文]-计算机应用与软件 2011(12)

2.夏丽丽连续状态-连续行动强化学习[期刊论文]-电脑知识与技术 2011(19)

3.柯文德.朴松昊.彭志平.蔡则苏.苑全德基于π演算的足球机器人协作Q学习方法[期刊论文]-计算机应用

2011(3)

4.刘全.傅启明.龚声蓉.伏玉琛.崔志明最小状态变元平均奖赏的强化学习方法[期刊论文]-通信学报 2011(1)

5.何波基于Agent的电子商务自动谈判研究[期刊论文]-图书情报工作 2011(4)

6.耿晓龙.李长江基于人工神经网络的并行强化学习自适应路径规划[期刊论文]-科学技术与工程 2011(4)

7.邵杰.杜丽娟.杨静宇基于ILCS的多机器人强化学习策略[期刊论文]-通信技术 2010(4)

8.陈学松.杨宜民基于递推最小二乘法的多步时序差分学习算法[期刊论文]-计算机工程与应用 2010(8)

9.张欣.戴帅基于模糊聚类的分层强化学习算法[期刊论文]-计算机工程与科学 2010(1)

10.任红格.阮晓钢Skinner操作条件反射的一种仿生学习算法与机器人控制[期刊论文]-机器人 2010(1)

11.张媛.张广明.袁宇浩利用聚类分析法改进的多Agent协作强化学习方法[期刊论文]-计算机测量与控制 2010(4)

12.陈玉明.张广明.赵英凯基于混合Q学习的多Agent系统[期刊论文]-制造业自动化 2010(9)

13.陈学松.杨宜民强化学习研究综述[期刊论文]-计算机应用研究 2010(8)

14.王超.郭静.包振强一种具有自学习能力的动态调度决策机制[期刊论文]-计算机应用研究 2010(10)

15.陈玉明.张广明.赵英凯基于强化学习的混合智能控制算法研究与分析[期刊论文]-机床与液压 2010(20)

16.赵迪.李世其.朱文革.李明富.贾阳基于虚拟现实的空间机器人遥操作在维护作业中的应用[期刊论文]-航天器工程 2010(4)

17.周济.陈锋基于强化神经网络的区域协调控制研究[期刊论文]-电子技术 2010(9)

18.刘升贵.朱旦晨一种基于DFS的Agent强化学习策略研究[期刊论文]-计算机与现代化 2010(12)

19.李小勇.周锋.杨旭东.倪晖多Agent系统中信任预测的SRL模型[期刊论文]-北京邮电大学学报 2010(6)

20.程玉虎.高阳.王雪松基于概率型支持向量分类机的Q学习[期刊论文]-中国矿业大学学报 2010(3)

21.沈晶.刘海波.张汝波.吴艳霞.程晓北基于半马尔可夫对策的多机器人分层强化学习[期刊论文]-山东大学学报（工学版） 2010(4)

22.申元霞.王国胤动态环境下数据驱动Q-学习算法[期刊论文]-西南交通大学学报 2009(6)

23.周文云.刘全.李志涛一种大规模离散空间中的高斯强化学习方法[期刊论文]-计算机科学 2009(8)

24.么刚.王劲林.张武基于分级代理的智能家庭网络模型研究[期刊论文]-高技术通讯 2009(9)

25.李东华.江驹.姜长生多智能体强化学习飞行路径规划算法[期刊论文]-电光与控制 2009(10)

26.王雪松.张政.程玉虎.张依阳基于测地高斯基函数的递归最小二乘策略迭代[期刊论文]-信息与控制 2009(4)

27.刘亮.李龙澍基于局部合作的RoboCup多智能体Q-学习[期刊论文]-计算机工程 2009(9)

28.余涛.周斌.甄卫国强化学习理论在电力系统中的应用及展望[期刊论文]-电力系统保护与控制 2009(14)

30.王涛.陈海.白红英.高海东基于Agent建模的农户土地利用行为模拟研究——以陕西省米脂县孟岔村为例[期刊论文]-自然资源学报 2009(12)

31.刘波.覃征.邵利平.高由兵.王瑞基于群集智能的协同多目标攻击空战决策[期刊论文]-航空学报 2009(9)

32.张亚鸣.雷小宇.杨胜跃.樊晓平.瞿志华.贾占朝多机器人路径规划研究方法[期刊论文]-计算机应用研究2008(9)

33.刘全.高阳.陈道蓄.孙吉贵.姚望舒一种基于启发式轮廓表的逻辑强化学习方法[期刊论文]-计算机研究与发展2008(11)

34.石川.史忠植.王茂光基于路径匹配的在线分层强化学习方法[期刊论文]-计算机研究与发展 2008(9)

35.林芬.石川.罗杰文.史忠植基于偏向信息学习的双层强化学习算法[期刊论文]-计算机研究与发展 2008(9)

36.胡晓辉一种基于动态参数调整的强化学习动作选择机制[期刊论文]-计算机工程与应用 2008(28)

37.刘忠.李海红.刘全强化学习算法研究[期刊论文]-计算机工程与设计 2008(22)

38.赵玉兰.姜春风Agent系统激励学习的研究综述[期刊论文]-吉林农业科技学院学报 2008(3)

39.刘全.崔志明.高阳.陈道蓄.姚望舒一种逻辑强化学习的tableau推理方法[期刊论文]-智能系统学报 2008(4)

40.曹卫华.徐凌云.吴敏模糊Q学习的足球机器人双层协作模型[期刊论文]-智能系统学报 2008(3)

41.董友球.刘智勇基于Q学习的区域交通控制方法[期刊论文]-五邑大学学报(自然科学版) 2008(2)

42.苏浩铭.王浩一种基于模型的强化学习算法[期刊论文]-合肥工业大学学报（自然科学版） 2008(9)

43.程晓北.沈晶.刘海波.顾国昌.张国印分层强化学习研究进展[期刊论文]-计算机工程与应用 2008(13)

44.彭志平.李绍平一种基于PSO的分层策略搜索算法[期刊论文]-模式识别与人工智能 2008(1)

45.沈晶.程晓北.刘海波.顾国昌.张国印动态环境中的分层强化学习[期刊论文]-控制理论与应用 2008(1)

46.彭志平.李绍平分层强化学习研究进展[期刊论文]-计算机应用研究 2008(4)

47.薛丽华.殷苌茗.李立云.胡明辉基于多智能体的融合Sarsa(λ)学习算法[期刊论文]-计算机工程与应用

2008(4)

48.李鑫.井元伟.任涛.张阳基于强化学习方法的ATM网络ABR流量控制[期刊论文]-东北大学学报（自然科学版）2008(1)

49.马凤伟.刘智勇城市交通干线的Q-学习控制算法[期刊论文]-五邑大学学报（自然科学版） 2007(3)

50.付强.陈焕文中国象棋人机对弈的自学习方法研究[期刊论文]-计算机技术与发展 2007(12)

51.付强.陈焕文基于RL算法的自学习博弈程序设计及实现[期刊论文]-长沙理工大学学报(自然科学版) 2007(4)

52.陈圣磊.吴慧中.肖亮.朱耀琴基于Metropolis准则的多步Q学习算法与性能仿真[期刊论文]-系统仿真学报2007(6)

53.孟祥萍.苑全德.皮玉珍.陈渝基于强化学习的一类NP问题求解算法[期刊论文]-现代电子技术 2007(4)

54.张尚炜.李世其基于强化学习的机械臂避碰研究[期刊论文]-机械设计与制造 2007(8)

55.唐亮贵.刘波.唐灿.程代杰基于神经网络的Agent增强学习模型[期刊论文]-计算机科学 2007(11)

56.陈庆奎基于强化学习的多机群网格资源调度模型[期刊论文]-计算机科学 2007(11)

57.彭志平.彭宏基于并发Options 的双边多议题协商模型优化[期刊论文]-华南理工大学学报（自然科学版）2007(9)

58.WANG Xue-song.CHENG Yu-hu.SUN Wei A Proposal of Adaptive PID Controller Based on Reinforcement Learning[期刊论文]-中国矿业大学学报（英文版） 2007(1)

60.刘志芳.骆志刚.杨泽凡.郭华源.肖国荣基于智能Agent的个性化生物信息检索系统的设计[期刊论文]-计算机应用与软件 2007(6)

61.程晓北.顾国昌多智能体分层强化学习研究进展[期刊论文]-边疆经济与文化 2007(5)

62.安岭丽.彭志平.李铁鹰MAXQ方法在出租车问题中的应用[期刊论文]-茂名学院学报 2007(1)

63.汪栋.叶玉坤.张缨.高阳.杨育彬.周源.郭爱勇.赵波.朱亮.陈世福.舒志强.钱雪庆数字化肺癌细胞病理诊断系统的研制和临床应用[期刊论文]-中华外科杂志 2007(20)

64.王国江人机情感交互的方法与技术的研究[学位论文]博士 2007

65.黄炳强.曹广益.王占全强化学习原理、算法及应用[期刊论文]-河北工业大学学报 2006(6)

66.文锋.陈宗海.卓睿.周光明连续状态自适应离散化基于K-均值聚类的强化学习方法[期刊论文]-控制与决策2006(2)

67.陈飞.王本年.高阳.陈兆乾.陈世福贝叶斯学习与强化学习结合技术的研究[期刊论文]-计算机科学 2006(2)

68.李楠基于强化学习算法的多智能体学习问题的研究[学位论文]硕士 2006

69.张伟RoboCup中基于强化学习的多智能体协作研究[学位论文]硕士 2006

70.黄向阳游戏“软件人”的研究与开发[学位论文]博士 2006

71.陈光柱免疫决策关键技术研究[学位论文]博士 2006

72.李志强.胡晓峰.张斌.董忠林基于强化学习的指挥控制Agent适应性仿真研究[期刊论文]-系统仿真学报

2005(11)

73.沈晶.顾国昌.刘海波分层强化学习中的Option自动生成算法[期刊论文]-计算机工程与应用 2005(34)

74.魏英姿.赵明扬一种基于强化学习的作业车间动态调度方法[期刊论文]-自动化学报 2005(5)

75.分层强化学习研究综述[期刊论文]-模式识别与人工智能 2005(5)

76.卓睿.陈宗海.陈春林基于强化学习和模糊逻辑的移动机器人导航[期刊论文]-计算机仿真 2005(8)

77.宋梅萍.顾国昌.张汝波移动机器人的自适应式行为融合方法[期刊论文]-哈尔滨工程大学学报 2005(5)

78.刘志芳基于智能Agent的个性化生物信息检索系统的设计与实现[学位论文]硕士 2005

79.鲍翊平多Agent协作团队的强化学习方法研究[学位论文]硕士 2005

80.邢关生基于强化学习算法的电梯动态调度策略的研究[学位论文]硕士 2005

81.彭军多智能体系统协作模型及其在足球机器人仿真系统中的应用[学位论文]博士 2005

82.程玉虎连续状态—动作空间下强化学习方法的研究[学位论文]博士 2005

83.段爱华基于DFL的Agent自主学习模型及其应用研究[学位论文]硕士 2005

84.卓睿移动机器人基于强化学习的多智能体混合式体系结构[学位论文]硕士 2005

85.文锋基于自适应评价者设计方法的学习控制研究[学位论文]博士 2005

86.王长缨多agent协作团队的学习方法研究[学位论文]博士 2004

本文链接：https://www.wendangku.net/doc/9b13406182.html,/Periodical_zdhxb200401011.aspx