1、图像分解(Decomposition)第一步,EdiVal-Agent 会让大模型(如 GPT-4o)先“看懂”一张图片。它会自动识别出图中所有可见对象,并为每个对象生成结构化的描述——包括 颜色 (color)、材质 (material)、物体上是否存在文字 (text)、数量 (count) 和前景属性 (foreground)。
这些对象被汇总成一个对象池(Object Pool),并通过物体检测器进行验证过滤,为后续指令生成和评测打下基础。
2、指令生成(Instruction Generation)
第二步,EdiVal-Agent 根据场景自动生成多轮编辑指令。 它拥有覆盖 9 种编辑类型、6 个语义类别 的指令体系,包括:
添加(add)、删除(remove)、替换(replace)、 改颜色(color alter)、改材质(material alter)、改文字(text change)、移动位置(position change)、改数量(count change)、换背景(background change)。
EdiVal-Agent 会动态维护三个对象池:
All Objects Pool(所有出现过的对象)Available Objects Pool(当前可编辑的对象)Unchanged Objects Pool(尚未被修改的对象)在每一轮编辑中,智能体都会:
随机选取指令类型;挑选合适对象;生成自然语言编辑指令;更新对象池状态。默认设置为三轮(Turn 1 – Turn 3),也可以扩展到更长链条,实现更多轮可组合编辑。
3、 自动评测(Evaluation)最后一步,EdiVal-Agent 从三个维度评估模型表现:EdiVal-IF(Instruction Following) 判断模型是否准确执行指令——例如“把白马换成鹿”是否真的完成。 对于符号任务(如位置或数量变化),使用 Grounding-DINO 等开放词汇检测器进行几何验证; 对于语义任务(如颜色或背景变化),则结合物体检测器和VLM 进行语义核对。EdiVal-CC(Content Consistency) 测量未被编辑的部分是否保持一致。 它计算背景区域(排除 All Objects Pool 中的所有物体)与未修改对象(属于 Unchanged Objects Pool 的物体)之间的语义相似度,以确保模型不会“误伤”无关区域。比如,下图中 GPT-Image-1 编辑后的 STOP 标志 发生了明显变化,而 Nano Banana 则更真实地保持了内容一致性。EdiVal-VQ(Visual Quality) 使用 Human Preference Score v3 评估整体视觉质量,量化生成结果的美观度与自然度。最终综合指标 EdiVal-O 通过几何平均融合 EdiVal-IF 和 EdiVal-CC,平衡“是否听话”与“是否稳定”。

为什么不把 EdiVal-VQ 纳入总体分数?
在评估中,我们发现“视觉质量(EdiVal-VQ)”虽然重要,但并不适合直接计入综合得分。以指令 “将背景换成图书馆” 为例:
GPT-Image-1 会倾向于“美化”图像,让整体更光亮、更清晰,从而提升审美得分。FLUX.1-Kontext-max 则选择“保真”策略,尽量保持原始风格,只替换必要区域。
陈天钰

张雅思
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237