深度强化学习赋能城市消防优化，中科院团队提出DRL新方法破解设施配置难题

在城市建设与发展中，地理空间优化至关重要。从工业园区选址，到公共服务设施布局，它都发挥着关键作用。但传统求解方法存在诸多局限，如今，深度学习技术为其带来了新的转机。

近日，在中国地理学会地理模型与地理信息分析专业委员会 2025 年学术年会上，来自中国科学院空天信息创新研究院的梁浩健博士在「地理空间优化」这一专题下，以「基于分层深度强化学习的城市应急消防设施配置优化方法研究」为题进行了成果汇报演讲，并从地理空间优化问题概述、面向地理空间优化问题的深度学习方法研究、基于分层深度强化学习的新探索以及未来展望 4 个方面展开了详细介绍。

梁浩健老师演讲现场

HyperAI 超神经在不违原意的前提下，对梁浩健老师的深度分享进行了整理汇总，以下为演讲实录。

地理空间优化：数学与地理的深度融合

地理空间优化是数学组合优化与地理信息科学的结合，致力于解决空间布局、资源配置等实际问题，在城市建设、工业园区选址、公共服务设施选址等众多领域都具有重要的研究意义。它可以被表示为一个最优化问题，涉及决策变量、约束条件和目标函数，其中决策变量通常为整数或 0 – 1 变量。如下图

其中为决策变量， (x) 是不等式约束条件， ( ) 是等式约束条件，是目标函数约束（1）表示决策变量的范围，通常为整数或 0-1 变量。

所示。

以经典的 p-中值问题为例，其旨在从候选设施点中挑选 p 个部署设施，让所有需求点到最近设施点的总距离最小，常用于公共设施选址。传统求解空间优化问题的方法有 3 类，包括精确算法、近似算法和启发式算法，不过它们都有各自的短板。

* 精确算法能够获得全局最优解，但通常计算复杂度较高，求解时间随问题规模呈指数级增长，例如分支定界法、动态规划等。
* 近似算法在保证一定理论性能的前提下提高求解效率，但其算法设计较为复杂，例如贪心策略、线性规划舍入等方法。
* 启发式算法能在较短时间内获得较优解，适用于大规模复杂问题，但缺乏理论最优性保证，常见方法包括模拟退火、禁忌搜索等。

深度学习进军地理空间优化领域

在计算机视觉和自然语言处理等领域，利用深度模型来代替手工算法的设计取得了瞩目的成果。那么，能否用它来求解空间优化问题呢？基于这一思路，研究人员为此展开了对空间优化（Neural Spatial Optimization）的探索，其动机包括 3 个方面：

* 学习更快/更好的启发式方法，利用数据驱动实现快速近似代替复杂计算

* 自动设计新启发式算法的通用框架

* 通过历史信息训练 DRL 模型来指导未来规划

由此，我对 NeurSPO 预设了 2 大构想：

一是深度构造。简单而言就是初始时为空解，而后每次选择一个点，直至选出目标 p 个点，完成分步构造解。

二是深度提升。它的本质类似局部搜索等算法，是一个改进解的方法，可以利用深度学习去替换解。例如在局部搜索中，选择合适的点进行交换或者优化等。

SpoNet 模型：动态覆盖注意力破解选址难题

如何在探索 DRL 的方法中解决 p-Median 、 p-Center 、 MCLP 为主的目标问题？我们首先做出了动态覆盖信息 + 注意力模型的尝试，提出了一种统一的框架求解选址问题——SpoNet 。其构造主要由 3 部分组成：

* 在深度学习模型下，智能体与环境不断交互，通过大量试错和学习策略实现回报最大，不需要生成标签信息。

* 注意力模型使模型在解码时学会将注意力集中在输入序列的特定部分，而不是仅仅依赖于解码器（decoder）的输入。

* 在节点覆盖过程中，若某一节点已经被覆盖了，在该点选择部署设施，可能导致覆盖效率降低。在动态覆盖注意力模型下，对城市的静态位置坐标和城市之间的动态覆盖状态进行编码，利用知识驱动，通过引入问题特有的覆盖信息进行编码，提升模型对空间覆盖关系的理解能力，从而加速求解过程。如下图所示：

基于动态覆盖注意力模型求解最大覆盖选址问题基本流程

动态覆盖注意力模型

在探索北京市朝阳区应急设施的布局优化问题上，我们应用了这一模型，选用了 132 个紧急设施的数据集，假设每个设施点的最大服务距离为 2 千米，最终在 132 个候选应急设施中选择了 20 个点作为中心枢纽点，使得覆盖的节点数量最多。

AIAM：自适应交互注意力模型求解 p-中值问题

在当前解的邻域内进行搜索，尝试找到更优解的局部搜索算法模式已经相对成熟，我们在此基础上探索了深度提升辅助搜索，即基于邻域搜索的思想，利用 DRL 搜索策略，实现快速近似代替复杂计算的搜索过程。

在路径规划问题中不同节点之间存在不同的次序关系，然而 -中值问题中的解是设施集合的一个子集，导致用户节点和设施点之间存在不同的分配关系。为衡量这一分配关系，我们设置了「用户」和「设施」的交互，并且提出了自适应交互注意力模型。

该模型包括交互注意力编码器、节点移除解码器、节点插入解码器 3 部分，如下图所示：

自适应交互注意力模型

经验证，该模型能够在 2,162 个居民点（需求点）和 80 个医院（候选设施点）中保留 15 个医院，以最小化居民点到医院的总距离，证实了 AIAM 模型在实际场景下的可行性。

分层 DRL 解决城市应急消防设施配置难题

当前，城市发展迅速，突发事件的频率和复杂性持续攀升，城市应急消防设施配置效率和功能性难以兼顾等问题加剧。传统火灾预测方法难以处理大范围、高精度数据，导致风险评估精度低、响应滞后，且消防设施布局无法实时反映城市变化和应急需求。在此背景下，亟需引入智能化、动态化的火灾风险预测与应急消防设施，全面提升城市火灾防控与应急响应的科学性和效率。

基于此，我们将深度学习的框架理论研究转向了对现实生活的应用。为提升城市火灾防控与应急响应能力，研究聚焦于提高火灾风险预测精准性、优化应急资源配置、增强应急响应及时性和灵活性。具体通过以下 3 个方面实现。

首先是面向城市火灾风险预测的多维时空特征挖掘与融合。

面向城市火灾风险预测的时空神经网络主要由时空特征提取模块和融合输出模块组成。

* 时空特征提取模块在前向传播中自动捕捉城市空间结构、消防设施分布及火灾统计和气象数据的动态变化；

* 融合输出模块则通过注意力机制整合时空特征，最终输出火灾风险预测值。如下图所示。

时空神经网络构成

其次是考虑不确定性和灾害损失的应急消防设施配置优化模型构建。

在多重覆盖选址中，引入火灾频率、交通状况和需求分布等不确定性因素，并将灾害损失纳入目标函数，以提升布局方案的稳健性。通过概率分布或区间估计描述火灾发生、交通通行与需求波动的变化。在建模中，火灾风险结合历史数据与地理条件构建概率模型，交通响应则基于通行能力与仿真分析形成时间分布，需求变化则通过设定波动范围或场景集应对城市动态发展。

第三是面向应急消防设施布局优化的分层 DRL 方法。

该算法采用分层策略，统筹消防设施的整体布局与局部调整，模型状态包含设施分布、火灾风险和交通状况，动作为各时刻的建站或调度决策。

未来展望：拓展边界，持续创新

科研的道路总是不断进步的，未来我们团队计划通过跨学科合作，结合地理信息系统、数学优化方法和深度学习技术，深入探索更复杂、实际的地理空间优化问题。

对此，我从以下 3 个方面做出了思考和展望：

* 引入地理计算机制，增强空间感知能力。

AI 赋予地理空间优化的能力还在持续探索，仅凭当前的研究是远远不够的，在未来，融合地形、网络通达性、连通性等空间机制建模有助于提高模型对地理结构的解释能力与实际适应性。

* 扩展至大规模与跨区域应急响应问题。

当前我们的研究仅停留在了对于小问题的探索，所以，未来势必会逐渐延展到大规模应急响应问题的探索，不断改进使它能够支持城市群、省域级多中心联动优化，以此提升方法的可扩展性、稳定性与计算效率。

* 设计更高效的 DRL 算法框架。

未来可以继续探索优化高/低层策略协同机制与训练流程，引入多智能体协同、异步训练、因果机制等技术，实现更有效的实际问题求解。

综上所述，中国科学院空天信息创新研究院梁浩健博士团队提出的分层 DRL 方法，作为地理空间优化领域的 AI 革新方案，通过融合动态覆盖注意力模型、自适应交互注意力模型及多维时空特征融合技术，不仅破解了传统消防设施布局中风险评估滞后、资源配置低效的难题，更通过分层策略实现了应急设施布局的全局统筹与局部优化。

未来，随着地理计算机制的引入与跨区域应急响应模型的拓展，这一方法有望在大规模城市治理、多中心联动优化等领域释放更大潜力，推动地理空间优化与应急管理的深度融合创新。相信在不断地探索与创新中，地理空间优化领域将取得更多突破，为城市发展和应急管理提供更有力的支持。

关于中国科学院空天信息创新研究院

梁浩健博士是中国科学院空天信息创新研究院特别研究助理。研究方向主要为地理空间优化、深度强化学习、遥感大数据分析和数字地球综合应用等。

梁浩健老师

他所在的团队由王少华研究员带头，以「推动地理空间科学与人工智能的交叉应用，为实现智慧城市和可持续发展目标提供创新解决方案」为愿景，致力于利用先进的计算方法和人工智能技术来分析和处理时空大数据，以实现空间环境的智能化决策和优化。近年来，团队利用时空大数据分析、深度学习和机器学习等技术，开展了地理空间优化、遥感 AI 等多项研究。