表征工程(Representation Engineering, RepE)
近年来,表征工程(Representation Engineering, RepE)在提升AI系统透明度和可控性方面取得了显著进展。
一、大模型可解释性与可控性的突破
核心论文:《Representation Engineering: A Top-Down Approach to AI Transparency》(2023, CMU等机构)
核心原理:
该研究提出了一种自上而下的表征工程方法,将神经网络中的“表征”作为分析核心,而非传统的神经元或电路。通过**线性人工层析扫描(LAT)**技术,研究者设计刺激任务(如让模型回答真假问题),收集神经活动数据并构建线性模型,从而提取与目标概念(如真实性、撒谎)相关的内部表征。例如,通过检测模型在TruthfulQA数据集上的神经活动,发现其内部存在一致的“真理概念”区域,且更大的模型具有更准确的信念。
关键技术:
- 表征读取:定位与