【AI探究与小实验:论证AI工程绘画的能力】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2026-1-2 09:59

AI探究与小实验:论证AI工程绘画的能力

作者：微信文章
各位雨哥的粉丝们，之前我发布过一篇文章如何用豆包完成工程图的制作？：关于用大模型（都说豆包画画牛逼PLUS，画图中的扛把子）画工程图，这篇是后续：尝试通过可复制、更结构化的prompt造福雨哥的粉丝们... ( 熬了无数个日夜，两个豆包账号都干爆的节奏，估计豆包后台要把我列入黑名单了)
先给结论：验证器在豆包深度思考之后，给出的反馈

豆包绘画引擎 seedream4.5 的能力评价

能力：擅长创意类图像（如插画、海报）的风格化生成，能识别基础模块与图标元素，具备初步的布局感知能力。

存在的问题：

无法执行像素级 / 坐标级的精细约束（如网格对齐、模块间距、流线锚点）；

不能严格遵守文本规范（如内容唯一性、Bullet 格式、字号 / 字体）；

无法精准实现颜色 / 样式的强约束（如三流颜色区分、模块背景透明度）；

易生成多余元素（如 “豆包 AI 生成” 中文字符）；

不支持工程图的层级与逻辑严谨性（如模块边界、流线优先级）。

以下是雨哥我手搓的AI 画画提示词检验器的Prompt，以及执行结果：

基于打磨了两周《自动驾驶参考架构》高精度提示词（迭代了无数版本，通过QWEN、豆包两个工具交叉优化提示词），我从200多张照片里，提取了相对能拿的出手的豆包绘图成品和 Gemini 3 Thinking 一次成品（最后一张）做对比，以下是结论：

## 雨哥送福利：AI 画画提示词检验器## 任务描述：你是AI画画提示词专家，请根据用户给的提示词以及豆包、Gemini生成的图片（见附件），以及用户反馈的问题，整体Review用户提示词可能存在的问题： 1、你在分析时，请用四种完全不同的方法, 包括：条款层级校验法、元素映射校验法、执行可行性推演法、IEEE 工程图对标校验法* 分别得出结论后，比较两者是否一致？* 如果不一致，说明哪里出错了；如果一致，说明结论可信；* 最后给出最终优化建议； 2、你在分析时，可以“调用外部工具”，但请明确写出：* 何时需要工具？* 你“调用”了什么工具？（即使只是心算，也说明）；* 如果工具结果与预期不符，你会如何调整？ ## 用户反馈的问题 (如有)：1、Gemini 3 Thinking 精准的还原了Prompt想要表达的内容；2、我选了N幅中的两幅豆包画出来的图片, 差的太远；最后，1、客观评价豆包绘画引擎seedream4.5的能力，以及存在的问题；2、请将需要调整的提示词部分, 以代码块的形式给显式的打印出来（不需要全部打印） ## 用户提示词
你好！我是 AI 画画提示词专家。针对你提供的《自动驾驶参考架构》高精度提示词及其生成结果，我进行了深度的技术复盘与分析。

完整的提示词，见这里：AI探究与小实验-脚本：论证AI工程绘画的能力

你设计的提示词具有极高的工程逻辑性，几乎是在尝试用“代码指令”去驱动一个“概率模型”。

以下是详细的 Gemini 3Thinking 的Review 报告：

一、多维度深度分析校验

1. 条款层级校验法 (Clause-level Validation)

校验重点：核对“最高优先级约束”在生成图中的体现。

分析：

2.2 颜色禁令：提示词明确禁止紫色 (H=270–330)。

执行结果：豆包-01/02 均出现了明显的紫色/品红渐变（背景纹理与发光特效），彻底违规；Gemini 基本遵守，以深蓝为主调。

1.1 内容唯一性：要求 100% 匹配清单，严禁非英文字符。

执行结果：豆包出现了严重的拼写幻觉（如 "fa-radar" 变成了 "fa Camera" 的前缀，"Raw Data Stream" 变成 "Dats Srraem"）；Gemini 拼写准确率极高，基本复现。

结论：提示词层级分明，但豆包引擎在处理“否定约束（Negative Constraints）”时表现极差。
2. 元素映射校验法 (Element Mapping Validation)

校验重点：核对清单中的物理模块与图标是否一一对应。

分析：

传感器模块：提示词要求图标 + 标签文字。

执行结果：豆包-02 虽然画出了图标，但文字排版混乱且有重复拼写错误。Gemini 完美映射了 5 个传感器及其对应的文字流向。

三流分离：提示词要求蓝色（数据）、绿色（控制）、金黄（监控）。

执行结果：豆包完全混淆，线条颜色随机；Gemini 成功区分了蓝色数据流和黄色监控路径，逻辑清晰。

结论：Gemini 具备极强的空间布局理解力，能将 Prompt 中的逻辑拓扑转化为视觉拓扑。
3. 执行可行性推演法 (Execution Feasibility Inference)

校验重点：评估“12×8 虚拟网格”和“±1px 容差”在 Diffusion 模型中的可行性。

分析：当前扩散模型（如 Seedream 4.5, Flux, DALL-E 3）本质是基于去噪生成，而非矢量绘图。

执行结果：要求“中心点对齐网格线”对 AI 而言属于过载指令。这种精确度需要 CAD 插件而非提示词。

结论：提示词中的“像素级”描述超出了目前 AI 绘画引擎的执行边界，导致引擎在尝试理解这些复杂指令时，反而干扰了基础文字的拼写准确度。
4. IEEE 工程图对标校验法 (IEEE Benchmarking)

校验重点：视觉风格是否去装饰化、扁平化、专业化。

分析：提示词要求“无渐变/模糊/阴影”。

执行结果：豆包依然带有浓重的“科幻 HUD 风格”（炫光、暗角、装饰性曲线），这与其训练集的偏好有关。Gemini 风格最接近工程图，线条干净。

结论：豆包的底模带有强烈的视觉美化偏向，难以实现“无创意执行”。
二、比较结果分析

两者结论是否一致？

一致性：四个方法得出的结论高度一致——用户提示词逻辑完美，但超出了豆包引擎的执行上限。

差异说明：

Gemini 胜在“语义对齐能力”和“指令遵循度”，它能理解复杂拓扑。

豆包 (Seedream 4.5) 败在“过度美化（Hallucination of aesthetics）”和“弱文字渲染能力”，它将复杂的工程指令误认为是一种“高科技氛围描述”。

三、豆包 Seedream 4.5 客观评价

能力表现：

视觉张力强：能生成富有科技感、细节丰富的画面。

质感优秀：在处理发光、纹理、金属感方面有商业级表现。

存在问题：

指令过载风险：对“强约束”和“否定约束”极度不敏感，容易“自作聪明”。

文字排版灾难：无法处理长单词或特定拓扑关系的文字排版（容易出现 fa-radar 这种带有标签痕迹的错误）。

缺乏逻辑一致性：无法真正理解“数据流”与“控制流”的逻辑区别。

三、最终优化建议与代码片段

你原来的 Prompt 过于强迫 AI 变成 CAD 软件。优化思路应是：减弱像素级限制，加强语义组块化，并使用特定术语引导引擎进入“Diagram”模式。

后续建议：
如果你需要 100% 精准的工程图，目前的 Seedream 4.5 无法胜任。建议在生成后，将图片导入矢量编辑工具（如 Figma 或 Adobe Illustrator）进行文字和连线的二次微调。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI探究与小实验:论证AI工程绘画的能力