讲解三篇神经符号集成的综述,这些综述没有针对推荐系统的,所以大致过一下,下一篇帖子会介绍针对KG的两篇综述。综述1关注的是系统集成和数据流的宏观模式“是什么”;综述3关注的是与人类理解直接相关的中间过程和决策逻辑的透明度与可读性“怎么样”。综述2短文,在神经网络和符号系统上加入了概率方法,帖子最后有总结。
综述1 23年
这篇综述主要阐述了神经符号学习系统,旨在将神经系统和符号系统 结合到一个统一的框架中。 核心观点是,神经系统在学习能力和感知智能方面表现出色,但缺乏有效的推理和认知能力。 相反,符号系统拥有出色的认知智能,但在学习能力上不如神经系统。 因此,将两者的优势结合起来,创建既能进行强大感知又能进行认知推理的神经符号学习系统。从四个不同的视角对神经符号学习系统的进展进行了调研:挑战 (challenges)、方法 (methods)、应用 (applications) 和未来方向 (future directions)。
神经符号学习系统是结合了神经系统和符号系统优势的混合模型 。
符号系统 (Symbolic systems):采用基于推理的方法来寻找解决方案 。它们通常处理结构化数据,如逻辑规则、知识图谱或时间序列数据,其基本信息处理单元是符号 。通过训练,符号系统获取特定任务搜索算法的解空间,并输出更高级别的推理结果 。
神经系统 (Neural systems):擅长使用基于学习的方法来逼近真实情况 。神经系统通常处理非结构化数据,如图像、视频或文本,其主要信息处理单元是向量 。通过训练,神经系统学习特定任务的映射函数,并输出较低级别的学习结果 。
神经符号学习系统 (Neural-symbolic learning systems):包含了符号系统和神经系统的特性 。这些系统结合了符号系统的推理能力和神经系统的学习能力。 最终目标是找到一个函数 F,能够有效地将数据 x 和符号 s(预定义或通过计算获得)映射到真实标签 y 。其形式化定义如下:
分类
该论文的分类方法取决于神经系统和符号系统之间的集成模式,主要有三种集成方法 。
为推理而学习 (Learning for reasoning)
目标:利用符号系统进行推理,同时结合神经网络的优势来促进解决方案的寻找 。这类模型以串行化过程为特征,其中神经网络组件和符号推理组件按顺序连接 。
基本思想:利用神经网络减少符号系统搜索空间,从而加速计算 。这可以通过用神经网络替代传统的符号推理算法来实现 。神经网络有效地减少了搜索空间,使计算更加高效。或者利用神经网络从数据中抽象或提取符号,以促进符号推理 。在这种情况下,神经网络作为获取符号推理任务知识的一种手段 。它们学习从输入数据中提取有意义的符号,并将其用于后续的推理过程 。
基本框架 :神经网络提取输入数据中的相关特征或符号,然后这些特征或符号被符号推理模块用于执行更高级别的推理任务 。(a)展示了神经网络加速符号推理的方面,而(b)展示了神经网络将非结构化数据转换为符号以供符号推理的方面 。其目标是将神经网络引入到主要通过推理技术解决的问题中 。
为学习而推理 (Reasoning for learning)
目标:利用符号系统来支持神经系统的学习过程 。这类模型以并行化为特征,神经系统和符号系统在学习过程中并行操作 。
基本思想:利用神经系统执行机器学习任务,同时将符号知识整合到训练过程中,以增强性能和可解释性 。符号知识通常被编码成适合神经网络的格式,并用于指导或约束学习过程 。例如,符号知识可以表示为特定任务损失函数中的正则化项 。这种符号知识的整合有助于改进学习过程,并能带来更好的泛化能力和模型可解释性 。
基本框架 :神经网络组件从数据中学习,而符号系统提供额外的知识或约束来指导学习过程 。它将符号知识引入神经网络,主体依靠神经网络获得解决方案 。
学习-推理 (Learning-reasoning)
目标:神经系统和符号系统之间的交互是双向的,两种范式发挥同等作用并以互利的方式协同工作 。其目标是在解决问题的过程中平衡神经系统和符号系统的参与度 。
基本思想:在这种方法中,神经网络的输出成为符号推理组件的输入,而符号推理的输出也成为神经网络的输入 。通过允许神经系统和符号系统迭代地交换信息并相互影响,该方法旨在利用两种范式的优势并增强整体问题解决能力 。例如,结合像溯因推理(abductive reasoning)这样的符号推理技术,可以设计深度神经网络和符号推理框架之间的连接 。在这种情况下,神经网络组件生成假设或预测,然后符号推理组件使用这些假设或预测执行逻辑推理或推断 。来自符号推理的结果随后可以反馈给神经网络,以优化和改进预测 。
基本框架 :神经系统和符号系统之间的交互以交替方式发生 。这种结合两种技术的方式允许迭代学习和推理,从而实现神经和符号方法的更深度集成 。通过神经系统和符号系统之间的双向交互和信息迭代交换,学习-推理方法旨在最大化两种范式的优势,并在各个领域实现增强的问题解决能力 。它将神经网络和推理技术结合为一个交替过程,两者共同输出解决方案 。
方法
1 为推理而学习 (Learning for reasoning)
这类方法利用神经网络来辅助符号推理,要么加速推理,要么从数据中提取符号供推理使用 。
pLogicNet 和 ExpressGNN
核心思想:这两模型旨在解决知识图谱中的三元组补全问题,将其视为概率图中的隐变量推理问题 。它们结合了变分期望最大化(Variational EM)和神经网络来近似推理过程 。ExpressGNN 通过使用图神经网络(GNN)改进了 pLogicNet 的推理网络 。
神经逻辑归纳学习 (Neural Logic Inductive Learning, NLIL)
核心思想:NLIL 是一种可微的归纳逻辑编程(ILP)模型,它能自动从数据中归纳出新的逻辑规则,用于模型学习和推理 。它可以学习复杂的逻辑规则,例如树状和合取规则,并提供对数据中观察到的模式的解释 。
2 为学习而推理 (Reasoning for learning)
这类方法利用符号系统来支持神经网络的学习过程,例如通过正则化或知识迁移 。
正则化模型 (Regularization models):这些模型通过在模型的目标函数中添加正则项来将符号知识整合到训练过程中 。
HDNN (Harnessing Deep Neural Networks with Logic Rules)
核心思想:HDNN 利用知识蒸馏的概念,让一个编码了逻辑规则的“教师网络”在训练过程中指导“学生网络”(一个深度神经网络) 。
基于语义的正则化 (Semantic-based Regularization, SBR) 和语义损失 (Semantic Loss, SL)
核心思想:这些方法将逻辑知识(命题逻辑或一阶逻辑)编码为一个实值函数,作为神经模型损失函数的一部分 。SL 使用算术电路(特别是句子决策图 SDD)来编码逻辑规则,并将其作为正则化项整合到现有损失函数中 。
上下文感知零样本识别 (Context-Aware Zero-Shot recognition, CA-ZSL)
核心思想:CA-ZSL 利用知识图谱(表示类别间的语义关系)来辅助识别来自未见过的类别的对象 。它在一个基于深度学习和条件随机场(CRF)的模型中,使用知识图谱生成CRF的二元势函数
知识迁移模型 (Knowledge transfer models):这类模型通过在不同领域或空间(如视觉空间和语义空间)之间建立联系,并将符号知识从一个领域转移到另一个领域来支持学习过程 。
SEKB-ZSL 和 DGP
核心思想:这些是零样本识别模型,它们使用从知识图谱(包含已见和未见类别)中派生出来的语义分类器权重,来指导或监督视觉分类器权重的学习,从而实现知识迁移 。DGP 通过减少图卷积层数和使用注意力机制改进了 GCN 中的过平滑问题 。
知识图谱迁移网络 (Knowledge Graph Transfer Network, KGTN)
核心思想:KGTN 利用知识图谱来捕获和建模已见类别与未见类别之间的相关性,以解决小样本分类问题 。它使用门控图神经网络(GGNN)学习知识图谱节点嵌入,以捕获类别间的相关性 。
命题逻辑网络 (Propositional Logic Nets, PROLONETS)
核心思想:PROLONETS 将领域知识编码为神经网络内的一组命题规则,并允许基于训练的神经网络对这些领域知识进行提炼 。它通过将从规则转换来的决策树直接初始化神经网络的权重,从而为深度强化学习提供“热启动” -强化学习
3 学习-推理 (Learning-reasoning)
DeepProbLog
核心思想:DeepProbLog 通过使用“神经谓词”将深度学习与概率逻辑编程语言 ProbLog 无缝集成 。神经网络处理简单概念或非结构化数据,为 ProbLog 中的符号推理生成输入(逻辑事实) 。它支持神经网络和逻辑推理在一个统一框架下的端到端训练 。
溯因学习 (Abductive Learning, ABL)
核心思想:ABL 框架结合了溯因推理(推断对给定观察的最佳解释)和归纳(机器学习的核心组成部分)。它通过一个初始化的分类器获得伪标签,然后利用逻辑推理(基于知识库,如ProLog)来最小化伪标签与符号知识之间的不一致性,从而修正伪标签,并用修正后的标签重新训练分类器,此过程迭代进行 。
双层概率图推理框架 (Bi-level Probabilistic Graphical Reasoning framework, BPGR)
核心思想:BPGR 最初用于视觉关系检测,它使用马尔可夫逻辑网络(MLN)来建模所有逻辑规则,并量化符号知识被触发的程度 。它包含一个视觉推理模块(VRM)和一个符号推理模块(SRM),SRM 利用符号知识指导 VRM 的推理,起到纠错作用 。该模型不仅描述预测结果与符号知识的匹配程度,还明确说明哪些符号知识正在被拟合以及拟合该符号知识的概率,以此作为模型预测的解释 。
应用
1. 对象/视觉关系检测 (Object/visual-relationship detection)
目标:识别图像中的对象或对象之间的关系 。
挑战与方案:仅依赖视觉特征通常性能较弱 ,因此神经符号学习系统通过引入外部知识来增强检测性能 。
代表性工作:Donadello 等人提出的逻辑张量网络 (Logic Tensor Networks, LTN),将神经网络与一阶逻辑结合,能够从嘈杂图像中进行有效推理,并通过逻辑规则描述数据特征,从而增强图像识别任务的可解释性 。在遥感领域,Marszalek 和 Forestier 等人强调利用领域专家的符号知识来改进检测能力 。Zhu 和 Nyga 等人采用马尔可夫逻辑网络 (Markov Logic Networks, MLN) 来建模符号知识,并将其整合到深度学习模型中,用于学习评分函数并预测输入图像与特定对象或概念之间的关系,例如马和人之间的“可骑乘”关系 。
2. 知识图谱推理 (Knowledge graph reasoning)
背景:知识图谱常常存在不完整性,需要通过补全或链接预测技术来提高其质量 。Zhang 等人对神经符号学习系统中的知识图谱推理的益处进行了综述 。
代表性工作:Wang 等人提出一种方法,将三元组或基本规则转换为一阶逻辑 (FOL) 语句,然后基于实体和关系嵌入的向量/矩阵运算对这些FOL语句进行评分,以执行知识图谱中的链接预测 。
基于路径的推理方法致力于通过探索给定实体周围的多跳邻居来扩展推理,并使用神经网络在这些邻域内预测答案 。例如,DeepPath 使用强化学习来评估采样路径,从而减少搜索空间并提高效率 。Teru 等人提出的 GraIL 是一个基于图的推理框架,它提取头实体和尾实体k跳邻居组成的子图,然后使用图神经网络 (GNN) 基于提取的子图推理两个实体之间的关系 。
3. 分类/小样本分类 (Classification/ few-shot classification)
代表性工作:Marra 等人引入了关系神经机器 (Relational Neural Machines, RNM),这是一个允许学习器和推理器联合训练的框架,能够整合学习和推理过程以提高性能 。
针对小样本学习问题,Sikka 等人将常识知识整合到深度神经网络中,并使用逻辑知识作为神经符号损失函数来正则化视觉语义特征,从而在模型学习过程中利用来自未见类别的信息,增强了零样本学习能力 。
Altszyler 等人将逻辑规则整合到神经网络架构中,用于多领域对话识别任务,使得模型能够识别未见类别的标签而无需额外的训练数据 。
4. 智能问答 (Intelligent question answering)
概述:智能问答是神经符号推理在自然语言处理和视觉推理任务中的一个突出应用 。其目标是开发能够通过利用文本和图像的上下文信息准确推断答案的模型 。
代表性工作:Andreas 等人提出的神经模块网络 (Neural Module Network, NMN) 框架,使用深度神经网络生成符号结构以解决后续的推理问题 。Gupta 等人扩展了 NMN,并提出了一种无监督辅助损失来帮助提取与文本中事件相关的论点,并为文本引入了一个推理模块,能够以概率或可微分的方式对数字和日期进行符号推理(如算术、排序和计数) 。Hudson 等人提出的 MAC 模型是一个具有循环记忆、注意力和组合功能的全可微分网络模型,它将图像和问题分解为序列单元,输入循环网络进行序列推理 。Tran 和 Poon 等人使用 MLN 对领域常识进行建模,并使用概率推理方法进行查询 。Sun 等人学习了一个神经语义解析器,并基于元学习训练了一个模型无关的模型,以提高涉及有限简单规则的语言问答任务的预测能力 。Oltramariet 等人提出在常识问答中整合神经语言模型和知识图谱,并基于语言模型架构提出了一种基于注意力的知识注入方法 。对于视觉问答任务 (VQA),Hudson 等人提出了神经状态机 (Neural State Machine, NSM),它基于图像中的概念构建一个概率场景图,然后对该概率场景图执行顺序推理,以回答问题或发现新结论 。
5. 强化学习 (Reinforcement learning)
背景与挑战:深度强化学习是一个热门领域,但当前的深度强化学习方法在推理能力方面存在局限性 。研究人员开始将符号知识整合到强化学习中以应对这一挑战 。论文探讨了两种方法:将符号知识与深度强化学习相结合,以及将符号知识与分层强化学习相结合 。
代表性工作:Garnelo 等人提出的深度符号强化学习 (Deep Symbolic Reinforcement Learning, DSRL) 方法,将符号先验整合到智能体的学习过程中以增强模型的泛化能力 。DSRL 智能体由一个神经后端和一个符号前端组成,神经后端学习将原始传感器数据映射到符号表示,符号前端则利用该表示学习有效策略 。Garcez 等人扩展了 DSRL 并引入了带常识的符号强化学习方法 (SRL+CS),该方法基于 DSRL 改进了学习阶段(奖励分配考虑智能体与对象的交互)和决策阶段(基于对象与智能体的距离为每个Q函数分配重要性权重) 。Yang 等人提出的 PEORL 框架整合了符号规划和分层强化学习 (HRL),以解决动态环境中具有不确定性的决策问题 。符号规划用于指导智能体的任务执行和学习过程,而学习到的经验则反馈给符号知识以增强规划阶段 。这是首次在HRL框架内利用符号规划进行选项发现 。
Lyu 等人提出的符号深度强化学习 (Symbolic Deep Reinforcement Learning, SDRL) 框架,与PEORL类似,包含规划器、控制器、元控制器以及符号知识,旨在实现任务级的可解释性 。规划器利用先验符号知识通过一系列符号动作(子任务)进行长期规划;控制器利用深度强化学习算法学习每个子任务的子策略;元控制器通过评估控制器的训练性能来学习外部奖励,并向规划器建议新的内在目标 。PEORL 和 SDRL 都利用符号知识来指导强化学习过程并促进决策制定 。
未来方向
1. 高效方法 (Efficient methods)
挑战:在神经符号学习系统中,符号推理技术(如使用马尔可夫逻辑网络 MLNs 进行概率推理)经常面临精确推理难以解决的问题 。例如,当处理大量逻辑规则和常量时,基元(groundings)的数量会指数级增长,这会显著降低模型推理的速度 。
现有问题:尽管已经提出了一些缓解方法,如基于学习的方法,但它们仍有局限性 。常用的近似推理技术虽然能提高推理速度,但往往以牺牲准确性为代价 。
未来方向:因此,研究人员探索神经网络在解决符号系统计算难题方面的潜力至关重要 。设计利用神经网络计算优势来处理传统符号系统中计算困难任务的方法,是推进推理方法向前发展的关键研究方向 。
2. 符号知识的自动构建 (Automatic construction of symbolic knowledge)
现状:论文中讨论的符号知识包括逻辑知识和知识图谱 。自动构建符号知识(尤其是知识图谱)已经相对成熟 。
挑战:然而,神经符号方法中逻辑规则的构建通常依赖领域专家的手动努力,这个过程耗时、费力且不易扩展 。对于神经符号学习系统而言,一个重大的挑战是实现描述从数据中派生出的先验知识规则的端到端学习 。
未来方向:尽管存在像基于归纳逻辑编程(ILP)的方法用于知识提取,但从数据中自动学习逻辑规则在很大程度上仍未被充分探索 。因此,规则的自动构建是神经符号学习系统领域一个重要的未来研究方向 。
3. 符号表示学习 (Symbolic representation learning)
重要性:精心设计的符号表示在简化和提高复杂学习任务效率方面起着至关重要的作用 。
挑战:例如,在零样本图像分类中,学习到的符号表示如果包含有限的语义信息,会妨碍模型有效处理复杂分类任务的能力 。因此,符号知识中精确的语义信息对于提升这些模型的性能至关重要 。然而,大多数现有的符号表示学习方法难以处理具有强相似性的谓词(例如,“next to” 和 “near” 可能语义相似但逻辑公式不同)。当前的符号表示学习方法未能捕捉到这种语义相似性,从而妨碍了模型的推理能力 。
未来方向:因此,设计更鲁棒和高效的符号表示学习方法是神经符号学习系统领域的一个重大挑战 。图表示学习的发展为应对这一挑战提供了一个有前景的途径,它通过将节点映射到低维、密集和连续的向量中,可以灵活支持各种学习和推理任务 。鉴于符号知识通常表现出异构性、多重关系甚至多模态性,探索异构图表示学习方法的开发和利用成为克服神经符号学习系统面临挑战的另一个重要方向 。
4. 应用领域扩展 (Application field expansion)
现状:神经符号学习系统已在多个领域得到应用,包括计算机视觉、自然语言处理和推荐系统 。
新探索:最近,研究人员也开始探索将神经符号学习系统应用于其他领域,如COVID-19疫情研究和先进机器人技术 。例如,在COVID-19疫情背景下,它们已被用于从医学文献中提取相关信息等任务 。同样,在先进机器人领域,神经符号学习系统可用于增强机器人的智能和决策能力
综述2 24年
Human-like Cognitive AI: Learning, Reasoning, Collaboration”指出了NSAI系统旨在实现的目标——像人类一样的学习、推理和协作能力 。这部分指向了NSAI算法的构成。NSAI算法被描绘成三种关键技术组件的融合 :
神经网络 (Neural Network):具有可扩展 (Scalable)、灵活 (Flexible) 和处理不一致性 (Handle inconsistency) 的特点 。
符号方法 (Symbolic):具有可解释 (Interpretable)、可说明 (Explainable) 和数据高效 (Data-efficient) 的特点 。
概率方法 (Probabilistic):具有对不确定性的鲁棒性 (Robust to uncertainty) 。
该图清晰地展示了神经符号AI (NSAI) 系统的核心组成、硬件平台以及面临的挑战和未来研究方向。 相较于综述1,入上图的部分还增加了一个概率方法。同时还增加了硬件计算平台包括CPU,GPU。最后列出了当前NSAI领域面临的主要挑战以及未来方向:
挑战 (Challenges) :有限的评估任务 (Limited evaluation tasks)
临时的模型设计 (Ad-hoc model design)
有限的可扩展性 (Limited extensibility)
大量的算法和硬件 (Large #algos and #HW)
异构的计算核心 (Heterog. compute kernels)
方向:
① 构建更多的认知数据集/测试平台 (Building more cognitive datasets/testbeds) 。
② 统一神经-符号-概率模型 (Unifying neuro-symbolic-prob models) 。
③ 开发高效的软件框架 (Developing efficient software frameworks) 。
④ 对多样化的NSAI工作负载进行基准测试 (Benchmarking diverse NSAI workloads) 。
⑤ 设计认知架构 (Designing cognitive architectures) 。这与数字④和⑤以及认知AI的总体目标相关。
概率方法:主要贡献在于使认知系统能够更有效地处理不确定性。通过有效处理不确定性,概率方法能够帮助NSAI系统在非结构化条件下实现改进的鲁棒性。神经方法、符号方法和概率方法的协同融合,使得NSAI成为一个有前景的、能够引领人工智能第三次浪潮的范式 。
但并没有为“概率方法”定义一个独立通用的、像神经网络训练那样的分步流程。而是列举了一些工作,例如:NeaPSL (Neuro-probabilistic Soft Logic) 其底层操作结合了神经网络和模糊逻辑 ;DeepProbLog (Neural Probabilistic Logic Programming) 这样的系统中,神经网络学习到的参数或事实会带有概率,然后在一个概率逻辑编程的框架下进行推理 ;NVSA (Neuro-Vector-Symbolic Architecture) 使用符号推理器进行“概率溯因推理。
综述3 24年
提供了一个以可解释性为核心视角来审视和分类神经符号AI研究的框架,回顾了从2013年以来的191项研究,并提出了一个针对可解释性的分类方法 。这个分类方法同时考虑了模型的设计因素 (design factor) 和行为因素 (behavior factor) ,探讨了在提升可解释性方面所面临的挑战和未来的发展方向。原文:解释神经网络的难点在于其特征提取和基于特征的推理过程。
可解释分析
模型的透明度分为设计期可解释性和事后可解释性,“设计期可解释性”指的是在模型构建过程中就使其易于人类理解,或者嵌入逻辑规则和约束,从而让神经符号AI系统天生透明且可解释,从根本上避免黑箱模型的影响 。“事后可解释性”则是在系统设计、开发和部署之后,通过分析模型行为来解释其决策过程,例如通过生成解释性文本、可视化技术和模型简化等方法 。
并将191项研究分为了五个可解释性级别:低、中低、中、中高和高 。
分类标准:第一个标准关注神经网络提取的特征与符号逻辑处理的信息形式之间的差异 。这个视角聚焦于这两种表示之间的兼容性和转换机制 。除了神经网络本身的可解释性外,这种转换的形式也影响集成模型的可解释性,构成了分类的第一个标准,即衡量连接神经表示和逻辑符号表示的中间表示的可读性 。
第二个标准关注神经符号AI模型中决策或预测逻辑的可解释性 。具体来说,即使考虑到神经网络黑箱处理不可避免的影响,仍然可以在不同程度上理解知识处理方法的本质,这将有助于在一定程度上解释决策或预测 。
可解释性分析框架
详细描述了神经符号方法(基于191项研究)的五个具体分类,并对每个类别进行了讨论,后续名词解释:
中间表示:神经网络通常用于从原始数据(如图像、文本)中提取特征,这些特征通常是以向量或高维嵌入的形式存在的。然而,符号逻辑系统通常处理的是离散的、结构化的符号和逻辑表达式 。因此,当这两类系统需要协同工作时,往往需要一个“中间表示”来充当桥梁,转换或连接神经网络的输出(神经表示)和符号逻辑系统的输入(符号表示)。隐式中间表示:不直接具备人类可读性的、难以直接理解其语义内容的表示形式,通常是神经网络内部产生的潜在向量嵌入。显式中间表示 : 指的是那些具有清晰结构、可以直接被人类阅读和理解其含义的表示形式。
决策:神经符号AI模型如何基于输入数据和内部处理,最终做出一个决策或生成一个预测的整个过程或其核心逻辑。隐式决策(预测)逻辑 : 当模型的决策过程主要隐藏在神经网络的权重、偏置和激活函数中时,其决策逻辑就是隐式的 。我们很难确切地知道网络内部数百万参数是如何相互作用,从而精确地推导出一个特定决策的完整逻辑链条。显式决策(预测)逻辑 (Explicit Decision Making/Prediction): 当模型的决策过程是基于清晰、可追溯、可理解的规则、步骤或符号运算时,其决策逻辑就是显式的 。
1 隐式中间表示与隐式决策制定(预测) - (Category I: 低可解释性)
研究数量:此类别包含74项神经符号AI研究 。
共同特征:它们都使用神经网络从数据中提取特征 。然而,这些特征的表示不能直接被符号逻辑处理,因此需要一个中间表示来填补空白 。连接两者的中间表示通常是潜在的向量嵌入,或者与结构化表示相结合,但仅部分显式且不能直接被人类阅读 。
大部分整体决策逻辑或预测方法是通过神经网络的权重和激活函数隐式表达的 。一些方法可能直接将符号逻辑整合到决策过程中,或者通过设计可解释的接口(如注意力机制和逻辑规则生成器)来提供对决策逻辑的间接理解,但整体的决策逻辑仍然需要解释 。
代表性案例讨论:论文讨论了Lemos等人 [114] 在知识图谱上的关系推理和链接预测模型、Ahmed等人 [2] 解决概率推理问题的方法、Marconato等人 [129] 提出的神经符号持续学习方法,以及Furlong和Eliasmith [78] 通过向量符号架构(VSA)和空间语义指针(SSP)实现概率计算的方法。这些案例的共同点在于,尽管它们结合了神经和符号成分,但由于中间表示(通常是高维向量)的隐式性以及决策逻辑主要依赖神经网络内部运作,其可解释性被评为较低。
结论:该类别下的研究,其解释性努力未能完全摆脱神经网络的“黑箱效应” 。
2 部分显式中间表示与部分显式决策制定(预测) - (Category II: 中低可解释性)
研究数量:此类别涉及110项神经符号AI研究 。
共同特征:它们都使用神经网络从数据中提取特征 。这些嵌入的表示不能直接被符号逻辑处理,需要中间表示 。大多数中间表示是符号逻辑表达式、数学表达式、结构化程序、逻辑电路、概率分布、虚拟电路和虚拟机指令等 。这些表示是部分显式的并且是人类可读的 。决策逻辑结合了来自神经网络的隐式表示和符号逻辑的显式表示,因此是部分显式和可读的 。
代表性案例讨论:论文讨论了Petersen等人 [143] 提出的深度符号回归(DSR)方法、[172] 提出的用于自动驾驶系统设计的神经符号程序搜索(NSPS)方法,以及Finzel等人 [74] 提出的使用GNN分类关系数据并通过ILP生成解释的方法。这些方法的中间表示(如符号表达式树、领域特定语言DSL、Prolog事实和规则)或决策过程(如表达式评估、程序搜索)具有一定的显式性,但仍有部分(如RNN内部状态、程序搜索算法的内部工作方式)是隐式的。
3 显式中间表示 或 显式决策制定(预测)- (Category III: 中等可解释性)
研究数量:此类别中有3项神经符号AI研究 。
共同特征:使用神经网络从数据中提取特征 。这些特征的表示不能直接被符号逻辑处理,因此必须使用中间表示来填补空白 。要么是中间表示完全显式,要么是整体决策逻辑完全显式 。
代表性案例讨论:论文讨论了Jiang等人 [102] 提出的基于LNN的实体链接方法LNN-EL、Kapanipathi等人 [103] 提出的基于语义解析和推理的NSQA(神经符号问答)系统,以及Katz等人 [105] 提出的在机器人操作任务中集成高级推理和低级动作控制的方法(基于神经虚拟机NVM结构)。这些方法的特点是,或者中间产物(如AMR图到逻辑查询的转换)较为清晰,或者推理过程(如LNN中的逻辑操作)是显式的,但由于特征提取阶段仍依赖深度模型,或表示空间是高维向量空间,整体的可解释性被评为中等。
4 显式中间表示 与 显式决策制定(预测) - (Category IV: 中高可解释性)
研究数量:此类别中有1项神经符号AI研究 。
主要特点:与前一类别最显著的区别在于,中间表示和整体决策逻辑都是显式的 。然而,仍然需要一个中间表示来填补提取的特征和符号处理之间的空白 。
代表性案例讨论:论文讨论了Kimura等人 [108] 提出的解决基于文本游戏的强化学习问题的神经符号框架。该方法首先通过语义解析器从文本观察中提取基本的命题逻辑,然后使用外部知识库(如ConceptNet)来理解词汇的语义类别并优化提取的命题逻辑,最后将这些组合成一阶逻辑事实作为LNN的训练输入。文本到逻辑的转换过程是清晰和显式的,LNN的推理和学习过程也是基于清晰的逻辑规则,因此决策过程也是显式和可解释的。
5 统一表示 与 显式决策制定(预测)- (Category V: 高可解释性)
研究数量:此类别中有3项神经符号AI研究 。
共同特征:尽管它们使用神经网络获取特征,但神经网络的输出保持了可以被符号逻辑处理的相同表示形式 。这意味着不需要额外的中间表示来弥合差距,或者说它们在某种程度上实现了表示的统一。整体的决策逻辑是完全显式和可解释的 。
代表性案例讨论:该类别主要以Riegel等人 [149] 提出的逻辑神经网络 (Logical Neural Network, LNN) 及其应用为例。LNN通过将其每个神经元映射到逻辑公式中的元素来直接解释和操作逻辑运算,使得模型的计算过程等同于执行一系列逻辑判断,每个神经元的输出不仅代表逻辑命题的真值,还能反映该真值是如何通过逻辑运算从输入中得出的,这使其具有高度可解释性。LNN还能通过扩展真值范围来处理不确定性、逻辑矛盾和不完整知识。Sen等人 [160] 提出的基于LNN的归纳逻辑编程方法和Sen等人 [159] 提出的使用LNN完成知识库的方法也属于此类,它们都能生成可解释的逻辑规则或基于显式逻辑进行操作。论文还提及Arrotta等人 [16, 17]、He等人 [89]、Xu等人 [197] 提出了适用于神经符号学习的损失函数,以及[4]提出了正则化方法,但指出这些研究并未提升模型的可解释性 。
通过这五种分类详细阐述了不同神经符号AI方法在可解释性方面的具体表现和原因。
趋势
使用了关键词 'neuro-symbolic', 'neuro symbolic', 和 'neuro symbolic learning' 在 Google Scholar 和 Research Gate 上调研了从2014年至今(截止到2024年2月)的相关研究 。在2020年至2023年之间,发表的论文数量呈上升趋势,其中2023年发表的论文数量最多,根据呈现的数据共有55篇 。这反映了对神经符号系统研究兴趣和活动的初步增长 。
输入数据类型:在当前的神经符号方法中,图像和文本是最常见的输入数据类型,这反映了它们在神经符号系统研究中的普遍性和重要性 。表示空间:绝大多数研究使用了单模态和非异构的表示空间,这表明在神经符号系统研究中,单一类型的数据(如文本、图像或结构化数据)仍然是更常见的研究对象 。可解释性水平:绝大多数论文的可解释性水平为中低 (medium-low) 和低 (low) 。这一数字表明该领域的大多数研究成果在可解释性方面仍有待提高 。
挑战
神经网络与符号逻辑中的统一表示
目前常见的方式(神经网络增强符号逻辑特征提取,或符号知识嵌入为神经网络提供规则约束)通常是针对特定任务优化的,难以适应或迁移到新任务或数据集,当需求改变时需要重新训练模型或调整符号逻辑规则,这限制了模型的整体泛化能力 。理想的统一表示可以让神经网络和符号逻辑模块直接利用提取的特征或学习到的知识,从而提高训练和推理效率 。
设计理想的统一表示仍面临许多障碍 :它需要能捕捉符号逻辑的结构特性,同时保持数据的本质模式 。这要求对数据分布及其与逻辑实体的潜在关系有深刻理解 。例如,如何在同一表示空间中有效地关联抽象定义(如“危险”)的图像特征与其符号定义,需要对不同类型数据间定义的内在语义“同一性”有深刻洞察,并找到合理的空间形式来反映这种洞察 。
基于统一表示的知识对齐必须明确验证新知识的可靠性,并确保更新前后输出的一致性,且过程应透明可解释 。这可能更接近于解决当前联结主义的概念稳定性问题,因为基于统一表示的概念结构在形成和更新时受到固定逻辑规则的约束 。传统的符号逻辑推理依赖明确定义的逻辑规则和结构,而神经网络通过模糊的概率分布进行推理,两者在推理机制上存在根本差异 。在统一表示中集成这两种推理架构意味着需要探索新的推理框架,并开发能够同时处理模糊逻辑和确定性逻辑的逻辑算法 。
可解释性与透明度
神经网络在与符号学习的合作中引入了不可避免的黑箱特征和推理过程 。对于松散耦合的情况,神经网络的可解释性无法得到任何改善,因为即使逻辑符号以嵌入向量的形式为神经网络提供规则或约束,嵌入过程本身也不直观,并且两者之间的交互增加了复杂性,还需要额外的复杂逻辑符号推理 。当神经网络和符号逻辑利用统一表示时,它们的语义重叠至少可以形成部分互补的可解释性
充分合作
当前神经网络和符号逻辑的集成难以避免两种模式各自的内在问题,例如,神经网络的不可解释推理和训练成本,或符号逻辑的表达限制和泛化问题,都可能被引入到集成的神经符号模型中 。
一个有前景的解决途径是开发新的模型架构,该架构将为神经网络组件和符号逻辑组件的输出应用一个集成层,从而可能克服当前集成的局限性 。可以利用一种弹性的双向学习机制来同步它们的知识 。然而,至关重要的是从设计过程一开始就考虑可解释性。
未来研究方向
统一表示和表示空间
增强模型可解释性:首先必须建立可解释性的基础 。例如,数学和物理定律在一定程度上可被视为正确的标准,而人类的常识逻辑可能充满矛盾和逻辑谬误 。同样,神经符号AI中的可解释性必须基于相对稳定的概念才能更具说服力 。因此,验证和更新大语言模型 (LLMs) 中的知识也是一个开放性课题 。对神经符号AI的可解释性要求主要分为两部分:过程透明度和结果透明度 。前者可能基于严谨的逻辑或公式化论证,这意味着即使使用神经网络为逻辑推理生成符号,这个过程也应该足够透明和可解释,以便验证其正确性 。后者表明,还应考虑一些独特的思维习惯,例如在为推理结果提供上下文证据时的常识 。
伦理考量与社会影响:如果未来我们大部分内容将来自生成式AI,那么这些内容的意义将远远超出仅用可信度来衡量的范围 。当今社会的所有道德要求,如公平正义、隐私保护、偏见与歧视、环境伦理、技术伦理、人道主义,甚至宗教,都应被纳入AI算法的评估标准中 。
总结
神经符号AI融合了神经网络强大的学习能力、符号系统的逻辑推理与可解释性。
综述1 偏向基础理论与算法方法论。它系统梳理了神经符号结合的基本模式和代表性算法。基于神经系统和符号系统之间的集成模式分为了三个范式:
- 为推理而学习 (Learning for reasoning):主要目标是利用符号系统进行推理,而神经网络则用于促进这一过程(例如,加速计算或提取符号)。这是一种串行化的集成 。
- 为学习而推理 (Reasoning for learning):主要目标是利用符号系统来支持和增强神经网络的学习过程(例如,通过提供知识约束或正则化)。这是一种并行化的集成 。
- 学习-推理 (Learning-reasoning):这是一种更紧密耦合的模式,神经系统和符号系统之间存在双向、迭代的交互,共同完成任务 。
综述2 涵盖算法到系统实现、硬件架构,并创新性地将概率方法明确纳入NSAI的核心框架,为构建真正鲁棒、高效的下一代智能系统提供了多维度的思考。
综述3针对可解释性。专门为了评估和理解神经符号AI模型的可解释性等级 ,并对如何真正实现“可解释的神经符号AI”提出了前瞻性的思考。并且基于中间表示的可读性和决策(预测)逻辑的可理解性(文中使用显示和隐示),将可解释性由低到高排列,分为了五类。
总结:将离散逻辑运算(如AND, OR)变为连续形式的方法多样,包括模糊逻辑、学习近似的神经模块、嵌入空间操作、概率逻辑和编译为算术电路等。
这种连续化本身不直接等同于可解释性。可解释性来源于:(a) 连续逻辑本身是否具有清晰的、可追溯的语义(如LNN);(b) 系统是否能基于这些连续表示生成人类可读的符号输出(如规则);(c) 系统是否能透明化这些连续表示如何影响最终决策。
不同的集成范式(如综述1的“为推理而学习”、“为学习而推理”、“学习-推理”)会以不同的方式引入和使用这些连续化的逻辑运算,其对可解释性的贡献路径和程度也因此各异。