摘要:由于异构网络非凸性和组合性的特点,联合用户关联和资源分配来实现能量效率(energy efficiency , EE )和频谱效率 (spectral efficiency , SE )同时最大化的最优全局策略仍然是非常具有挑战性的。基于深度强化学习(deep reinforcement learn- ing , DRL )的方法成为在保证异构网络下行链路用户设备(user equipments , UEs )服务质量(quality of service , QoS )的同时实 现联合 EE- SE 性能最大化的必要解决方案。此外,为解决状态一动作空间下计算量大的问题,引入了多智能体架构的深度强 化学习算法(MAD 3QN )来获得近乎最优控制策略。仿真结果表明,MAD 3QN 算法在系统容量方面比DDQN 算法和 D Q N 算