零开销,消除图像幻觉,基于零空间投影挖掘正常样本特征
日期:2025-06-30 14:00:41 / 人气:4
"【导读】当前大型视觉语言模型(LVLMs)存在物体幻觉问题,即会生成图像中不存在的物体描述。西安交通大学研究团队提出了一种名为Nullu的方法,通过提取「幻觉子空间」(HalluSpace)并进行零空间投影来编辑模型权重,从而有效消除幻觉,且不增加额外推理成本。
当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。
为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。
论文地址:https://arxiv.org/abs/2412.13817
代码地址:https://github.com/Ziwei-Zheng/Nullu
该方法的核心思路在于:从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
为了实现这一目标,研究人员在提取「真实描述+图像」与「幻觉描述+图像」的模型内部嵌入特征基础上,通过对二者嵌入特征的差进行主成分分析,定位导致幻觉的关键子空间,即HalluSpace
实验发现,HalluSpace内包含了LVLM所基于的大语言模型(LLMs)过强的偏好先验知识,而这在以往研究中已被证明是产生幻觉的主要原因之一。
因此,通过正交化模型权重,将输入样本的特征投影至HalluSpace的零空间,可以有效去除这种偏好先验,从而抑制幻觉生成。
Nullu实现简单,无需训练,便于部署,且不引入额外推理开销,在多个幻觉消除任务上取得了出色的效果,成果已发表于CVPR 2025
基于零空间投影的权重编辑
Nullu的权重编辑过程主要分为三个步骤:1)真实-幻觉数据对构建;2)HalluSpace抽取;3)基于零空间投影的模型权重编辑。
数据对构建
对于任意「视觉-文本」结构的输入数据,研究人员将构建数据对来实现幻觉子空间的抽取。每个数据对具有相同的图像和不同的文本信息:其中一个文本包含准确描述图像中物体的真实描述,作为负样本;另一个包含幻觉描述,作为正样本。
可以直接使用LURE[1]数据集作为数据对,其中每一对样本包含图像及其对应的真实描述(Ground Truth,GT)以及通过关键词替换得到的幻觉描述(Hallucination Description,HD)。
LURE数据构建的流程如下:图像从MSCOCO 2014数据集的训练集中随机选取5000 张图像,并获取与对应的描述作为GT
在此基础上,替换GT中最易引发幻觉的对象,如高频对象等,作为幻觉描述HD。
HalluSpace抽取
HalluSpace的抽取将主要在LVLM的语言模型部分的MLP层特征空间进行,整体流程如图所示。
语言大模型部分由LLM构成,各层包括一个自注意力层和一个MLP层。为抽取幻觉子空间HalluSpace,首先分别输入具有真实响应和幻觉响应的正负样本对,在LLM部分的每层分别计算并存储嵌入特征,随后在特征的长度维度上,对每个样本对应的特征求平均值,将这些嵌入特征堆叠成正负样本特征矩阵,并求出差异矩阵。
接着,通过SVD分解对差异矩阵进行主成分分析。
最后,选取具有对应于前

当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。
为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。
论文地址:https://arxiv.org/abs/2412.13817
代码地址:https://github.com/Ziwei-Zheng/Nullu
该方法的核心思路在于:从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
为了实现这一目标,研究人员在提取「真实描述+图像」与「幻觉描述+图像」的模型内部嵌入特征基础上,通过对二者嵌入特征的差进行主成分分析,定位导致幻觉的关键子空间,即HalluSpace
实验发现,HalluSpace内包含了LVLM所基于的大语言模型(LLMs)过强的偏好先验知识,而这在以往研究中已被证明是产生幻觉的主要原因之一。
因此,通过正交化模型权重,将输入样本的特征投影至HalluSpace的零空间,可以有效去除这种偏好先验,从而抑制幻觉生成。
Nullu实现简单,无需训练,便于部署,且不引入额外推理开销,在多个幻觉消除任务上取得了出色的效果,成果已发表于CVPR 2025
基于零空间投影的权重编辑
Nullu的权重编辑过程主要分为三个步骤:1)真实-幻觉数据对构建;2)HalluSpace抽取;3)基于零空间投影的模型权重编辑。
数据对构建
对于任意「视觉-文本」结构的输入数据,研究人员将构建数据对来实现幻觉子空间的抽取。每个数据对具有相同的图像和不同的文本信息:其中一个文本包含准确描述图像中物体的真实描述,作为负样本;另一个包含幻觉描述,作为正样本。
可以直接使用LURE[1]数据集作为数据对,其中每一对样本包含图像及其对应的真实描述(Ground Truth,GT)以及通过关键词替换得到的幻觉描述(Hallucination Description,HD)。
LURE数据构建的流程如下:图像从MSCOCO 2014数据集的训练集中随机选取5000 张图像,并获取与对应的描述作为GT
在此基础上,替换GT中最易引发幻觉的对象,如高频对象等,作为幻觉描述HD。
HalluSpace抽取
HalluSpace的抽取将主要在LVLM的语言模型部分的MLP层特征空间进行,整体流程如图所示。
语言大模型部分由LLM构成,各层包括一个自注意力层和一个MLP层。为抽取幻觉子空间HalluSpace,首先分别输入具有真实响应和幻觉响应的正负样本对,在LLM部分的每层分别计算并存储嵌入特征,随后在特征的长度维度上,对每个样本对应的特征求平均值,将这些嵌入特征堆叠成正负样本特征矩阵,并求出差异矩阵。
接着,通过SVD分解对差异矩阵进行主成分分析。
最后,选取具有对应于前
作者:杏彩娱乐
新闻资讯 News
- 肖仰华教授:具身智能距离 “涌现...06-30
- 特斯拉 Robotaxi:一场万亿级的...06-30
- 特斯拉 Robotaxi:一场万亿级的...06-30
- 谷歌AI将攻破200年数学难题,39...06-30