Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结编辑评测-脚本导航

> 自媒体 > （AI）人工智能 > Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结编辑评测

Seedream 4.0大战Nano Banana、GPT-4o？EdiVal-Agent 终结编辑评测

来源：机器之心Pro

2025-12-05 14:35:41

172

管理

1、图像分解（Decomposition）

第一步，EdiVal-Agent 会让大模型（如 GPT-4o）先“看懂”一张图片。它会自动识别出图中所有可见对象，并为每个对象生成结构化的描述——包括颜色（color）、材质（material）、物体上是否存在文字（text）、数量（count）和前景属性（foreground）。

这些对象被汇总成一个对象池（Object Pool），并通过物体检测器进行验证过滤，为后续指令生成和评测打下基础。

2、指令生成（Instruction Generation）

第二步，EdiVal-Agent 根据场景自动生成多轮编辑指令。它拥有覆盖 9 种编辑类型、6 个语义类别的指令体系，包括：

添加（add）、删除（remove）、替换（replace）、改颜色（color alter）、改材质（material alter）、改文字（text change）、移动位置（position change）、改数量（count change）、换背景（background change）。

EdiVal-Agent 会动态维护三个对象池：

All Objects Pool（所有出现过的对象）Available Objects Pool（当前可编辑的对象）Unchanged Objects Pool（尚未被修改的对象）

在每一轮编辑中，智能体都会：

随机选取指令类型；挑选合适对象；生成自然语言编辑指令；更新对象池状态。

默认设置为三轮（Turn 1 – Turn 3），也可以扩展到更长链条，实现更多轮可组合编辑。

3、自动评测（Evaluation）

最后一步，EdiVal-Agent 从三个维度评估模型表现：

EdiVal-IF（Instruction Following）判断模型是否准确执行指令——例如“把白马换成鹿”是否真的完成。对于符号任务（如位置或数量变化），使用 Grounding-DINO 等开放词汇检测器进行几何验证；对于语义任务（如颜色或背景变化），则结合物体检测器和VLM 进行语义核对。

EdiVal-CC（Content Consistency）测量未被编辑的部分是否保持一致。它计算背景区域（排除 All Objects Pool 中的所有物体）与未修改对象（属于 Unchanged Objects Pool 的物体）之间的语义相似度，以确保模型不会“误伤”无关区域。比如，下图中 GPT-Image-1 编辑后的 STOP 标志发生了明显变化，而 Nano Banana 则更真实地保持了内容一致性。

EdiVal-VQ（Visual Quality）使用 Human Preference Score v3 评估整体视觉质量，量化生成结果的美观度与自然度。

最终综合指标 EdiVal-O 通过几何平均融合 EdiVal-IF 和 EdiVal-CC，平衡“是否听话”与“是否稳定”。

为什么不把 EdiVal-VQ 纳入总体分数？

在评估中，我们发现“视觉质量（EdiVal-VQ）”虽然重要，但并不适合直接计入综合得分。以指令 “将背景换成图书馆” 为例：

GPT-Image-1 会倾向于“美化”图像，让整体更光亮、更清晰，从而提升审美得分。FLUX.1-Kontext-max 则选择“保真”策略，尽量保持原始风格，只替换必要区域。

陈天钰

张雅思

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

没有了

软银官宣！清仓英伟达套现58亿美元，转投OpenAI……

7天前