郑宇
- 作品数:8 被引量:16H指数:2
- 供职机构:北京交通大学更多>>
- 发文基金:国家自然科学基金北京市重点学科建设基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信交通运输工程更多>>
- 高速列车在龙卷风荷载影响下的行驶安全性研究
- 龙卷风作为一种破坏力极强的罕见自然灾害,发生时会对周围的基础设施和建筑结构造成巨大的破坏。高速铁路作为我国一张亮丽的名片,不仅承担着国家发展经济的动力作用,也具有保持社会稳定的重要意义。因此研究龙卷风对高速列车行驶安全的...
- 郑宇
- 关键词:高速列车
- 文献传递
- 利用多尺度分析和编组的基于目标的注意计算模型被引量:8
- 2006年
- 模拟生物视觉感知提出一种基于目标的注意计算模型,主要用到两个关键技术:多尺度分析和编组.用于多尺度分析的微分算子从原始图像中提取重要边缘,随后源于格式塔知觉组织规则的轮廓编组过程将边缘组织成感知目标.注意焦点按照各目标显著程度递减的顺序在目标间转移,目标显著程度由边缘重要性、区域对比度和轮廓闭合性共同决定.该模型考虑了目标的独立性和完整性,因此比基于空间的注意有更高的检测精度.多尺度分析为轮廓编组提供了候选边缘,从而提高了编组的效率.对多类自然图像的实验验证了该模型计算上的高效性和生物学上的合理性.
- 邹琪罗四维郑宇
- 关键词:多尺度分析编组
- 强化学习中基于定性模型的知识传递方法被引量:1
- 2011年
- 本文提出一种基于定性模糊网络的强化学习知识传递方法。该方法通过建立系统的定性模型,并用定性模糊网络抽取基于定性动作的次优策略的共同特征获得与系统参数无关知识。这些知识能有效描述参数值不同的系统所具有的共同控制规律,加快在新参数值的系统中强化学习的收敛速度。
- 黄晗文郑宇
- 关键词:知识传递
- 强化学习算法的稳定状态空间控制
- 2008年
- 强化学习算法的探索次数随着状态空间的增加呈指数增长,因此难以用于复杂系统的控制中。为克服这一问题,提出一种稳定状态空间控制的强化学习算法。算法以寻找稳定空间的最优控制动作为学习目标,将探索过程集中于稳定状态空间中,而不探索系统的全部状态空间。由于稳定状态空间通常仅占系统状态空间中的极小一部分,因此算法的探索次数不随状态空间的增加呈指数增长。
- 郑宇罗四维吕子昂
- 关键词:马尔可夫决策过程倒立摆
- 基于定性模糊网络的分层Option算法
- 2009年
- 在强化学习的研究中,常用的知识传递方法通过抽取系统最优策略的特征获得知识.由于所获得知识通常与系统参数有关,因此这些方法难以应用于状态转移概率随系统参数变化的一类任务中.本文提出一种基于定性模糊网络的分层Option算法,该算法用定性动作描述系统的次优策略,并用定性模糊网络抽取次优策略的共同特征获得与参数无关的知识,完成知识传递.倒立摆系统的控制实验结果表明:定性模糊网络能有效地表示各种参数值不同的倒立摆系统所具有的控制规律,获取与系统参数无关的知识,将常用的知识传递方法从参数无关任务扩展到参数相关任务中.
- 郑宇罗四维吕子昂
- 关键词:倒立摆
- 倒立摆系统中强化学习的极限环问题被引量:2
- 2008年
- 倒立摆系统是强化学习的一种重要的应用领域。首先分析指出在倒立摆系统中,常用的强化学习算法存在着极限环问题,算法无法正确收敛、控制策略不稳定。但是由于在简单的一级倒立摆系统中算法的控制策略不稳定的现象还不明显,因此极限环问题常常被忽视。针对强化学习算法中极限环问题,提出基于动作连续性准则的强化学习算法。算法采用修正强化信号和改进探索策略的方法克服极限环对倒立摆系统的影响。将提出的算法用于二级倒立摆的实际系统控制中,实验结果证明算法不仅能成功控制倒立摆,而且可以保持控制策略的稳定。
- 郑宇罗四维吕子昂
- 关键词:极限环倒立摆
- 基于模型的层次化强化学习算法
- 2006年
- 针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.
- 郑宇罗四维吕子昂
- 关键词:倒立摆
- 分层强化学习算法及其应用研究
- 强化学习是人工智能和机器学习的一个重要研究领域。强化学习采用试错的方式与环境进行交互,根据环境对动作的评价性反馈信号改进行动方案以适应环境。强化学习具有良好的在线自适应性和对非线性系统的学习能力,因此在人工智能、机器学习...
- 郑宇
- 关键词:知识传递
- 文献传递