陈皓
- 作品数:11 被引量:0H指数:0
- 供职机构:中国科学院自动化研究所更多>>
- 相关领域:自动化与计算机技术文化科学电子电信更多>>
- 多智能体信用分配方法、装置、可读存储介质和智能体
- 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体,涉及强化学习、多智能体技术领域。该方法包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练...
- 张俊格张茗奕杨光开陈皓黄凯奇陈丹丹王陆
- 面向Ad-Hoc协作的局部观测重建方法
- 2024年
- 在多智能体强化学习的研究中,如何进行Ad-Hoc协作,也就是说如何适应种类和数量变化的队友,是一个关键问题。现有方法或者有很强的先验知识假设,或者使用硬编码的规则进行合作,缺乏通用性,无法泛化到更一般的Ad-Hoc协作场景。为解决该问题,提出一种面向Ad-Hoc协作的局部观测重建算法,利用注意力机制和采样网络对局部观测进行重建,使得算法认识到并充分利用不同局面中的高维状态表征,实现了在Ad-Hoc协作场景下的零样本泛化。在星际争霸微操环境和Ad-Hoc协作场景上与代表性算法的性能进行对比与分析,验证了算法的有效性。
- 陈皓杨立昆尹奇跃黄凯奇
- 关键词:多智能体
- 基于集成学习的多智能体信用分配方法、系统、设备
- 本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协...
- 张俊格黄凯奇陈皓杨光开
- 一种0阶指数哥伦布码解码器及解码方法
- 本发明公开了一种0阶指数哥伦布码解码器及解码方法。解码器包括比特流移位器、前导零计算器、解码值计算器和偏移量生成器。解码方法在计算前导零时,不进行查表,而是采用并行的位运算的方式进行处理。本发明提高解码速度的同时减少了面...
- 李玲陈皓石守谦谭吉来
- 文献传递
- 多智能体通信方法、装置、存储介质和电子设备
- 本发明涉及一种多智能体通信方法、装置、存储介质和电子设备,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习系统,智能体作为任务执行节点,通信关系描述为边;智能体基于观察到的当前全局环境状态及自身神经网络,执行...
- 张俊格乔丹陈皓
- 多智能体信用分配方法、装置、可读存储介质和智能体
- 本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体,涉及强化学习、多智能体技术领域。该方法包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练...
- 张俊格张茗奕杨光开陈皓黄凯奇陈丹丹王陆
- 基于集成学习的多智能体信用分配方法、系统、设备
- 本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协...
- 张俊格黄凯奇陈皓杨光开
- 基于不确定度的多智能体信用分配方法
- 2024年
- 近年来,部分可观测条件下多智能体协同受到广泛关注。中心化训练分布式执行作为处理这类任务的通用范式面临信用分配这一核心问题。值分解是该范式中的代表性方法,通过混合网络将联合状态动作值函数分解为多个局部观察动作值函数以实现信用分配,在很多问题中表现很好。然而这些方法维持对混合网络参数的单一点估计,因缺乏不确定度表示而难以有效应对环境中的随机因素导致只能收敛到次优策略。为缓解这一问题,对混合网络进行贝叶斯分析,提出一种基于不确定度的多智能体信用分配方法,通过显式地量化参数的不确定度来指导信用分配。考虑到智能体之间复杂的交互,利用贝叶斯超网络隐式地建模参数任意复杂的后验分布,以避免先验地指定分布类型而陷于局部最优解。在星际争霸微操环境中的多个地图上与代表性算法的性能进行对比与分析,验证了算法的有效性。
- 杨光开陈皓张茗奕尹奇跃黄凯奇
- 多智能体通信方法、装置、存储介质和电子设备
- 本发明涉及一种多智能体通信方法、装置、存储介质和电子设备,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习系统,智能体作为任务执行节点,通信关系描述为边;智能体基于观察到的当前全局环境状态及自身神经网络,执行...
- 张俊格乔丹陈皓
- 一种0阶指数哥伦布码解码器及解码方法
- 本发明公开了一种0阶指数哥伦布码解码器及解码方法。解码器包括比特流移位器、前导零计算器、解码值计算器和偏移量生成器。解码方法在计算前导零时,不进行查表,而是采用并行的位运算的方式进行处理。本发明提高解码速度的同时减少了面...
- 李玲陈皓石守谦谭吉来