多客科技 发表于 2026-1-2 09:59

AI探究与小实验:论证AI工程绘画的能力

作者:微信文章
各位雨哥的粉丝们,之前我发布过一篇文章如何用豆包完成工程图的制作?:关于用大模型( 都说豆包画画牛逼PLUS, 画图中的扛把子 )画工程图, 这篇是后续:尝试通过可复制、更结构化的prompt造福雨哥的粉丝们... ( 熬了无数个日夜,两个豆包账号都干爆的节奏, 估计豆包后台要把我列入黑名单了)
先给结论:验证器在豆包深度思考之后,给出的反馈

豆包绘画引擎 seedream4.5 的能力评价

能力:擅长创意类图像(如插画、海报)的风格化生成,能识别基础模块与图标元素,具备初步的布局感知能力。

存在的问题:

无法执行像素级 / 坐标级的精细约束(如网格对齐、模块间距、流线锚点);

不能严格遵守文本规范(如内容唯一性、Bullet 格式、字号 / 字体);

无法精准实现颜色 / 样式的强约束(如三流颜色区分、模块背景透明度);

易生成多余元素(如 “豆包 AI 生成” 中文字符);

不支持工程图的层级与逻辑严谨性(如模块边界、流线优先级)。


以下是雨哥我手搓的AI 画画提示词检验器的Prompt, 以及执行结果:

基于打磨了两周《自动驾驶参考架构》高精度提示词(迭代了无数版本,通过QWEN、豆包两个工具交叉优化提示词),我从200多张照片里,提取了相对能拿的出手的豆包绘图成品 和 Gemini 3 Thinking 一次成品(最后一张)做对比,以下是结论:








## 雨哥送福利:AI 画画提示词检验器## 任务描述:你是AI画画提示词专家,请根据用户给的提示词以及豆包、Gemini生成的图片(见附件),以及用户反馈的问题,整体Review用户提示词可能存在的问题: 1、你在分析时,请用四种完全不同的方法, 包括:条款层级校验法、元素映射校验法、执行可行性推演法、IEEE 工程图对标校验法* 分别得出结论后,比较两者是否一致?* 如果不一致,说明哪里出错了;如果一致,说明结论可信;* 最后给出最终优化建议; 2、你在分析时,可以“调用外部工具”,但请明确写出:* 何时需要工具?* 你“调用”了什么工具?(即使只是心算,也说明);* 如果工具结果与预期不符,你会如何调整? ## 用户反馈的问题 (如有):1、Gemini 3 Thinking 精准的还原了Prompt想要表达的内容;2、我选了N幅中的两幅豆包画出来的图片, 差的太远; 最后,1、客观评价豆包绘画引擎seedream4.5的能力,以及存在的问题;2、请将需要调整的提示词部分, 以代码块的形式给显式的打印出来(不需要全部打印) ## 用户提示词
你好!我是 AI 画画提示词专家。针对你提供的《自动驾驶参考架构》高精度提示词及其生成结果,我进行了深度的技术复盘与分析。

完整的提示词,见这里:AI探究与小实验-脚本:论证AI工程绘画的能力

你设计的提示词具有极高的工程逻辑性,几乎是在尝试用“代码指令”去驱动一个“概率模型”。

以下是详细的 Gemini 3Thinking 的Review 报告:



一、 多维度深度分析校验

1. 条款层级校验法 (Clause-level Validation)


校验重点:核对“最高优先级约束”在生成图中的体现。

分析:

2.2 颜色禁令:提示词明确禁止紫色 (H=270–330)。

执行结果:豆包-01/02 均出现了明显的紫色/品红渐变(背景纹理与发光特效),彻底违规;Gemini 基本遵守,以深蓝为主调。

1.1 内容唯一性:要求 100% 匹配清单,严禁非英文字符。

执行结果:豆包 出现了严重的拼写幻觉(如 "fa-radar" 变成了 "fa Camera" 的前缀,"Raw Data Stream" 变成 "Dats Srraem");Gemini 拼写准确率极高,基本复现。

结论:提示词层级分明,但豆包引擎在处理“否定约束(Negative Constraints)”时表现极差。
2. 元素映射校验法 (Element Mapping Validation)


校验重点:核对清单中的物理模块与图标是否一一对应。

分析:

传感器模块:提示词要求图标 + 标签文字。

执行结果:豆包-02 虽然画出了图标,但文字排版混乱且有重复拼写错误。Gemini 完美映射了 5 个传感器及其对应的文字流向。

三流分离:提示词要求蓝色(数据)、绿色(控制)、金黄(监控)。

执行结果:豆包 完全混淆,线条颜色随机;Gemini 成功区分了蓝色数据流和黄色监控路径,逻辑清晰。

结论:Gemini 具备极强的空间布局理解力,能将 Prompt 中的逻辑拓扑转化为视觉拓扑。
3. 执行可行性推演法 (Execution Feasibility Inference)


校验重点:评估“12×8 虚拟网格”和“±1px 容差”在 Diffusion 模型中的可行性。

分析:当前扩散模型(如 Seedream 4.5, Flux, DALL-E 3)本质是基于去噪生成,而非矢量绘图。

执行结果:要求“中心点对齐网格线”对 AI 而言属于过载指令。这种精确度需要 CAD 插件而非提示词。

结论:提示词中的“像素级”描述超出了目前 AI 绘画引擎的执行边界,导致引擎在尝试理解这些复杂指令时,反而干扰了基础文字的拼写准确度。
4. IEEE 工程图对标校验法 (IEEE Benchmarking)


校验重点:视觉风格是否去装饰化、扁平化、专业化。

分析:提示词要求“无渐变/模糊/阴影”。

执行结果:豆包 依然带有浓重的“科幻 HUD 风格”(炫光、暗角、装饰性曲线),这与其训练集的偏好有关。Gemini 风格最接近工程图,线条干净。

结论:豆包的底模带有强烈的视觉美化偏向,难以实现“无创意执行”。
二、 比较结果分析


两者结论是否一致?

一致性:四个方法得出的结论高度一致——用户提示词逻辑完美,但超出了豆包引擎的执行上限。

差异说明:

Gemini 胜在“语义对齐能力”和“指令遵循度”,它能理解复杂拓扑。

豆包 (Seedream 4.5) 败在“过度美化(Hallucination of aesthetics)”和“弱文字渲染能力”,它将复杂的工程指令误认为是一种“高科技氛围描述”。

三、 豆包 Seedream 4.5 客观评价


能力表现:

视觉张力强:能生成富有科技感、细节丰富的画面。

质感优秀:在处理发光、纹理、金属感方面有商业级表现。

存在问题:

指令过载风险:对“强约束”和“否定约束”极度不敏感,容易“自作聪明”。

文字排版灾难:无法处理长单词或特定拓扑关系的文字排版(容易出现 fa-radar 这种带有标签痕迹的错误)。

缺乏逻辑一致性:无法真正理解“数据流”与“控制流”的逻辑区别。



三、 最终优化建议与代码片段

你原来的 Prompt 过于强迫 AI 变成 CAD 软件。优化思路应是:减弱像素级限制,加强语义组块化,并使用特定术语引导引擎进入“Diagram”模式。

后续建议:
如果你需要 100% 精准的工程图,目前的 Seedream 4.5 无法胜任。建议在生成后,将图片导入矢量编辑工具(如 Figma 或 Adobe Illustrator)进行文字和连线的二次微调。
页: [1]
查看完整版本: AI探究与小实验:论证AI工程绘画的能力