这篇论文来自哈尔滨工业大学与鹏城实验室的联合研究团队,于2026年4月发表在arXiv预印本平台,论文编号为arXiv:2604.17982v1,有兴趣深入了解的读者可通过该编号查询完整论文。
你有没有用过那种能识别图片内容的AI助手?你给它看一张照片,让它描述里面有什么,结果它一本正经地告诉你图里有只猫,可实际上那根本就是一只狗。或者更微妙的情况——它确实认出了一条街道,却硬说旁边有一辆根本不存在的红色汽车。这种现象在人工智能圈子里有个专门名称,叫做"视觉幻觉",意思是AI模型"看到"了实际不存在的东西,或者"没看到"明明存在的东西,然后把这些错误信息混进自己的回答里,说得还煞有介事。
(资料图片仅供参考)
这不是小问题。当我们把这类AI用在医疗影像分析、自动驾驶场景描述或者法庭证据辅助判断等场合时,一个"幻觉错误"可能带来真实的麻烦。正因如此,如何让AI的"眼睛"更诚实,一直是学界的热门难题。
哈尔滨工业大学与鹏城实验室的研究团队,针对这个难题提出了一套全新的解决方案,名叫PSRD,中文可以理解为"基于阶段性自我奖励的解码方法"。他们宣称,这套方法能把主流视觉语言模型LLaVA-1.5-7B的幻觉率直接压低50%,而且不需要给AI重新训练、不需要额外标注大量数据,只需要在AI"说话"的过程中实时监控和纠正即可。接下来,这篇文章会带你完整走过这项研究的每一个环节。
一、AI为什么会"看见"不存在的东西
要理解这项研究的价值,得先搞清楚视觉幻觉到底是怎么发生的。
大型视觉语言模型,可以粗略理解为一个同时具备"看图能力"和"说话能力"的AI系统。它先通过视觉模块把图片转换成一串数字表示,再把这些数字和你提出的问题一起喂给语言模型,让语言模型生成回答。问题就出在语言模型这一侧——语言模型本质上是一个"接龙高手",它被训练成总是预测下一个最可能出现的词。当它生成一段图片描述时,它的注意力会逐渐从图片本身转移到"这句话该怎么说得顺畅"上。换句话说,AI的语言习惯有时候会盖过视觉事实,它会说出"听起来合理"但实际上并不存在于图片中的内容。
现有的解决方案大体分两类。一类是"事后修改派":让AI先生成完整的回答,再用另一个程序检查有没有错误,发现问题就回去改。这就好比你写完一篇作文,再交给老师批改,效率不高,而且有时候修改本身也会引入新错误。另一类是"实时干预派":在AI生成每一个词的时候都插手,注入一些对比信号来压制幻觉倾向。这种方法每一步都要额外计算,计算量巨大,而且对所有位置一视同仁地干预,往往是在没问题的地方也瞎折腾,浪费资源不说,有时候还会破坏语言流畅性。
更关键的是,这两类方法都有一个共同的盲点:它们都没有认真研究过"幻觉到底在什么时候最容易冒出来"。哈工大与鹏城实验室的研究团队决定先把这个问题搞清楚,再设计解决方案。
二、幻觉的"节奏":它总在同一个时刻爆发
研究团队做了一个很有意思的基础实验。他们从COCO2014数据集里随机抽取500张图片,让LLaVA-1.5-7B为每张图片生成描述文字,然后仔细分析幻觉在整段描述里是如何分布的。
他们把生成的描述文字切分成一段一段,每一段称为一个"语义阶段",大致对应描述中的一个完整短语或子句。然后他们统计每个阶段的幻觉发生率。
结果非常清晰:幻觉率在整体上随着阶段推进而缓慢上升,从第一个阶段的14.6%逐渐爬升到第九、第十个阶段的17%左右,说明越往后生成,AI越容易出错,前面的错误在一定程度上会带着后面继续犯错,产生"幻觉传播"效应。但更重要的发现不在这里——在每一个语义阶段的内部,幻觉率在段落开头时最高,随后明显下降,到段落末尾时已经相对稳定。
换个说法来理解这个现象:AI在描述图片时,就像一个人在背诵一篇文章,每次开始一个新的话题段落,他最容易卡壳或者说错,因为他要同时完成两件事——既要开始一个新话题,又要回忆图片里到底有什么相关内容。等他说进状态了,话就顺多了,错误也少多了。
这个发现让研究团队意识到:如果要干预幻觉,不需要在每个词上都下功夫,只需要精确狙击每个语义阶段的开头就够了。这就是PSRD整个框架的核心直觉来源。
三、轻量级"裁判"的诞生:把大模型的判断力装进小瓶子
找到了幻觉爆发的规律,下一步就是设计一个能在关键时刻自动鉴别和纠正幻觉的工具。
最直接的想法是让AI自己评判自己:每当生成一段话,就问问大模型"这段话描述的是真实的吗",然后根据回答决定要不要重新生成。这个思路是可行的,但有个致命问题——大模型本身体积庞大,让它反复评判自己会让整个生成过程慢得像蜗牛,完全不实用。
研究团队的解法是:用大模型的判断能力去训练一个小得多的"裁判模型",然后在实际使用时只调用这个小裁判,而不是每次都麻烦大模型。整个过程分几步走。
第一步是"制造各种错误样本"。要训练一个能识别幻觉的裁判,首先得有足够多的幻觉例子。研究团队采用了两种方式来刻意诱导AI生成幻觉:一种是给AI看被高斯噪声污染的模糊图片,视觉信号被干扰后AI更容易脑补不存在的内容;另一种是设计特殊的提示词,引导AI在描述真实内容之后继续"合理推断"可能存在但实际上并不在图里的东西。通过这两种方式,研究团队收集到了大量含有各种幻觉的描述文本,形成训练样本库,其中包含约40万条正确描述和4万条含幻觉描述。
第二步是"让大模型给样本打标签"。对于收集到的每一段描述文字,研究团队把它和对应的原始图片一起输入大模型,然后问大模型:"这段话里说的内容和图片吻合吗?"大模型不仅给出"是"或"否"的判断,还会输出一个置信度分数,表示它对自己判断的把握程度。这个置信度分数就是所谓的"不确定性信号"——如果大模型对某条样本的判断非常确定,这条样本就更值得信赖;如果大模型自己也很模糊,这条样本的参考价值就相对低。在后续训练中,高置信度样本会获得更高的权重,低置信度样本的影响则被相应削弱。
第三步是"训练小裁判"。小裁判模型以CLIP为基础骨架构建,CLIP是一个擅长判断图文匹配程度的模型,本身比大语言模型轻量得多。研究团队在CLIP的基础上,用前面获得的标注样本和置信度权重,通过三个互相配合的训练目标来打磨这个小裁判。
第一个训练目标叫"判别对齐损失",核心是让小裁判能够区分"图文一致的描述"和"含幻觉的描述",用正确描述与图片的匹配分数应该明显高于幻觉描述的方式来训练。第二个训练目标叫"边界强化损失",要求正确描述的匹配分数和幻觉描述的匹配分数之间必须存在一个明显的间隔,就像两个班级的考试成绩不能太接近,否则就说明分辨能力还不够强。第三个训练目标叫"幻觉一致性损失",要求针对同一张图片生成的不同幻觉描述,在特征空间里应该聚集在一起,而不是散乱分布——这样训练出来的裁判对幻觉的识别更加稳定,不会因为幻觉的具体表达方式不同就给出截然不同的判断。
这三个目标被加权组合,权重分别设定为1.0、2.4和0.1,这个比例选取的原因不是针对某个特定测试集微调出来的,而是为了让三项损失在训练早期的数值量级大致相当,避免任何一个目标压制其他两个,从而保证训练过程的均衡性。
四、上场执裁:小裁判怎么在AI"说话"时纠错
小裁判训练好之后,就可以在AI生成图片描述的过程中实时工作了。具体来说,每当AI完成一个语义阶段的生成,小裁判就介入评分——它把这段刚生成的文字与原始图片对比,给出一个"图文一致性分数",可以粗略理解为"这段话有多真实"。
如果分数高于预先设定的门槛值,说明这段话没问题,AI继续往下生成下一个阶段。如果分数低于门槛值,说明这个阶段的开头可能存在幻觉,系统就需要干预了。
干预的方式是一套叫做"侦查-投影"的两阶段搜索策略。在侦查阶段,系统不是非要完全重新生成这段话,而是先考察几个备选的"起步词"——具体来说,它会检查当前时刻概率最高的前K个候选词(默认K=5),对每个候选词在不施加额外干预的情况下生成一段话,然后用小裁判评分,选出初始分数最高的那个候选词作为"种子轨迹"。如果这个最优种子词对应的描述已经通过了质量门槛,整个干预就结束了,代价很小。
如果连最优种子词也没能通过门槛,就进入投影阶段。投影阶段的做法是引入一种叫做VCD的对比解码技术作为干预工具,这种技术通过同时生成"有视觉信息"和"没有视觉信息"两个版本的预测,用两者的差异来压制那些不依赖视觉的语言惯性。干预的强度用一个参数α来控制,α越大,干预越激进。系统会先用一个小步长探测α增大时分数的变化趋势,估算出一个斜率,再根据这个斜率预测下一步α应该取多大才能让分数越过门槛,然后真的去验证。这个过程只需要少量几次尝试就能找到合适的干预强度,而且系统会给预测值额外加上10%的余量,因为奖励函数的局部曲率往往是凹的,简单的线性外推容易低估所需的调整量。如果斜率变得不稳定或者α已经超出了最大值上限,系统就放弃当前候选词,换下一个种子候选词重试,最终以最佳结果收尾。
整个搜索过程对小裁判的调用次数严格有限,不会让干预本身的计算成本失控。
五、实验战场:PSRD在五大测试中的表现
研究团队在五个公认的幻觉评测基准上对PSRD进行了全面检验,对比对象包括从普通基线模型到最先进的同类方法,横跨"需要重新训练模型"和"不需要重新训练模型"两大阵营。
在生成型幻觉测试中,最具代表性的是Object HalBench基准,这个测试让模型描述图片内容,然后检查描述中有多少物体是图片里根本没有的。在这个测试上,PSRD表现极为亮眼:CHAIRs指标(描述中至少含一个幻觉物体的比例)从LLaVA-1.5-7B基线的46.3%直接砍到了10.1%,CHAIRi指标(所有提及物体中幻觉物体的比例)从22.6%降到4.1%——这两个数字甚至超过了许多需要大量人工标注数据来重新训练模型的方法。此前最好的无需重新训练的方法Octopus拿到的是20.8%和6.6%,PSRD的10.1%和4.1%把这个纪录大幅改写。
在AMBER这个综合评测基准上,PSRD把LLaVA-1.5-7B的CHAIR分数从7.8压低到了3.9,降幅正好50%。幻觉相关的Hal分数从36.4下降到20.1,认知幻觉(Cog)分数从4.2降到2.0,而反映模型能正确识别多少真实物体的Cover分数也保持在48.2,没有因为过度纠错而把真实内容也误杀掉。
在MMHal-Bench测试上,该测试通过GPT-4打分来评估生成回答的整体质量,PSRD的综合得分从基线的1.55提升到2.92,幻觉比例从0.76下降到0.49,在所有无需重新训练的方法中排名第一。
判别型测试则考验AI面对一张图片和一个关于图片内容的问题时,能否正确回答"是"或"否"。在POPE这个判别测试的全套子测试上,PSRD把LLaVA-1.5-7B的F1分数提升到86.0,超过此前最好的Octopus方法的83.4。在AMBER判别任务上,F1分数从基线的71.1跃升到85.0,提升了整整13.9个百分点。
研究团队还专门验证了PSRD在不同模型上的泛化能力。他们把为LLaVA-1.5-7B训练的小裁判模型直接用在InstructBLIP-7B和LLaVA-Next-7B上,结果同样显著改善。对InstructBLIP-7B,CHAIR分数从8.4降至4.4,Hal分数从31.1降至20.9;对LLaVA-Next-7B,CHAIR分数从7.1降至4.7,Hal分数从37.6骤降至21.1;对更大的LLaVA-1.5-13B,CHAIR从6.7降至4.7,Hal从28.8降至24.1。跨模型直接通用而效果还这么好,这说明小裁判学到的判断能力并不只对它被训练的那个特定模型有效,而是反映了视觉幻觉的某种普遍特征。
六、幻觉传播:PSRD如何切断错误的"多米诺骨牌"
研究团队还设计了一个特别的分析实验,用来量化PSRD在阻止幻觉"滚雪球"方面的效果。
他们定义了一个指标叫"阶段级幻觉积累速率",计算方法是统计相邻两个语义阶段之间幻觉率增长的平均值。这个指标越高,说明前面的幻觉越容易带动后面继续犯错,错误像推倒的多米诺骨牌一样一路传下去;这个指标越低,说明模型的幻觉分布越稳定,不会越说越跑偏。
LLaVA-1.5-7B基线模型的积累速率是0.35%,M3ID(一种优秀的动态干预方法)的积累速率是0.40%,而PSRD的积累速率仅为0.07%——大约是基线模型的五分之一,比M3ID还低了将近六倍。这意味着PSRD不仅直接减少了当前这个阶段的幻觉,更有效地阻止了幻觉从一个阶段传染到下一个阶段,从根源上切断了"一个错误带出更多错误"的连锁反应。
七、效率的算盘:快与准之间怎么平衡
任何实用的AI技术都绕不开效率问题。PSRD在纠错时需要调用小裁判并可能进行多次尝试,这必然比直接一口气生成答案要慢。研究团队对此做了坦诚的分析。
他们发现,通过调整接受门槛τ,可以在纠错力度和速度之间灵活权衡。当τ设定为30%时,PSRD相比LLaVA-1.5-7B直接运行M3ID能多减少67.2%的幻觉,但推理时间大约是M3ID的4倍。当τ设定得更宽松时,系统干预的频率降低,速度更快,但幻觉压制效果也相应减弱。这个旋钮是连续可调的,用户可以根据自己对精度和速度的不同需求自由设置,不存在一刀切的局限。
研究团队还用ChatGPT-4o-mini作为评判者,对PSRD和M3ID各自生成的500段图片描述进行流畅度比较。结果显示,PSRD的描述在48.5%的情况下被认为比M3ID更流畅,M3ID在37.5%的情况下更好,另外14%被认为不相上下。由此可见,PSRD在压制幻觉的同时,并没有让生成的语言变得别扭或破碎。
此外,小裁判模型本身在独立的幻觉分类测试上也表现良好。在AMBER HalDet数据集上,它的准确率达到80.5%,F1分数88.7%,超越了OpenCLIP基线的75%准确率和84.7%F1;在MHal-detect数据集上,准确率72%,F1分数81.7%,也优于对比基线。这进一步确认了小裁判所学到的判断能力是真实可靠的,而非依赖某种偶然的捷径。
归根结底,PSRD这项研究的核心贡献在于把一个看似复杂的问题拆解成了两件可以分开解决的事:先弄清楚幻觉在什么时候发生(答案是每个语义阶段的开头),再用一个低成本的工具在那个时刻精准出手(答案是用大模型训练一个小裁判,实时监控和纠正)。两件事各自都不难,但组合在一起,效果却超过了许多复杂得多的同类方法。
这项研究对普通人生活的影响不是今天就能感受到的,但它推动的方向很清晰:让AI工具在描述、理解和回答关于图片的问题时更加可信赖。医生用AI辅助阅片、警察用AI辅助查阅监控、孩子用AI辅助学习认识世界——这些场景里,AI少说一个谎,就多了一份安全感。
有兴趣深入探索这项研究的读者,可以在arXiv平台上通过论文编号2604.17982查阅完整内容,论文包含了完整的算法伪代码、详细的实验设置和丰富的消融分析,技术细节相当充分。如果你曾经被AI描述图片时的奇怪错误困扰过,这篇论文也许能让你对未来的AI工具多一些期待。
Q&A
Q1:视觉幻觉在AI生成描述时为什么总在段落开头最严重?
A:根据PSRD的研究发现,AI在开始描述一个新的语义段落时,需要同时完成"开启新话题"和"回忆图片内容"两件事,这个双重任务让模型更容易脱离视觉事实,说出听起来合理但实际不存在的内容。等进入描述状态后,语境已经建立,后续词语受前文约束更稳定,幻觉率随之下降。这种"段落开头最危险"的规律,正是PSRD精准干预时机选择的核心依据。
Q2:PSRD训练的小裁判模型能直接用在其他AI模型上吗?
A:可以。研究团队验证了用LLaVA-1.5-7B训练的小裁判模型,直接应用于InstructBLIP-7B和LLaVA-Next-7B时,幻觉率同样显著下降。这说明小裁判学到的判断能力反映了视觉幻觉的普遍特征,不局限于特定模型,具备跨模型的泛化能力。
Q3:PSRD和现有的幻觉纠正方法相比速度上差距有多大?
A:当接受门槛τ设为30%时,PSRD的推理时间大约是M3ID方法的4倍,但幻觉减少量比M3ID多出67.2%。研究团队设计了可调节的门槛参数,用户可以根据对速度和精度的不同需求自由调整,在快速运行和高精度纠错之间灵活平衡,不是一个固定的速度比较关系。
猜你喜欢
“无事不扰,有求必应” 深圳持续优化营商环境
iPad中国市场份额大跌 华为再夺中国平板第一 暴增21%
威海银行:以“绿”促“新”助产业结构优化
半导体板块涨3.46% 利扬芯片涨19.99%居首
焦点观察:装修上市公司龙头股(2026/3/25)
顺丰同城连续五年披露ESG成果:绿色运力实现减碳253万吨,共筑行业低碳新生态
国家开放大学首届新商科创新创业大赛现场赛在北京举办