创新工程设计:利用CAD图像提示提升文本到图像生成模型的可行性

CAD-Prompted Generative Models: A Pathway to Feasible and Novel Engineering Designs

摘要

本文介绍了一种创新的方法,通过使用可行的CAD图像作为提示,来提高文本到图像生成模型在工程设计中的应用。该方法通过一个自行车设计任务的案例研究,展示了如何利用Stable Diffusion 2.1模型生成更多可行的设计图像。研究结果表明,通过调整CAD图像提示的权重,可以在保持设计新颖性的同时显著提高设计的可行性。这一发现为工程设计领域中更广泛地应用文本到图像生成模型提供了新的可能性。

原理

本文提出的CAD图像提示方法的工作原理是,利用OpenAI的CLIP模型从CAD图像数据库中选择与设计师文本提示最匹配的图像,然后将这些CAD图像与文本提示一起输入到文本到图像(T2I)生成模型中,如Stable Diffusion 2.1。T2I模型根据提示权重混合文本和图像提示,生成新的设计图像。这种方法的关键在于使用CAD图像来引导图像生成过程,从而提高生成设计图像的可行性。通过调整CAD图像提示的权重,可以在生成更多可行设计的同时,保持设计的新颖性。

流程

工作流程包括以下步骤:

  1. 设计师输入文本提示。
  2. CLIP模型从CAD图像数据库中选择与文本提示最匹配的CAD图像。
  3. 选定的CAD图像与文本提示一起输入到T2I模型中。
  4. T2I模型根据提示权重混合文本和图像提示,生成新的设计图像。
  5. 通过调整CAD图像提示的权重,生成不同可行性和新颖性的设计图像。

例如,在自行车设计任务中,设计师输入描述未来自行车的文本提示,CLIP模型选择一个具有未来感的CAD自行车图像,然后Stable Diffusion 2.1模型结合文本和图像提示生成新的自行车设计图像。

应用

该方法的应用前景广泛,特别是在需要将设计概念转化为实际产品的工程设计领域。通过提高生成设计图像的可行性,设计师可以更有效地利用文本到图像生成模型进行概念生成和设计探索。此外,该方法还可以与图像到CAD或图像到3D方法结合,进一步简化从概念到实际产品的转化过程。随着技术的进一步发展,预计这种方法将在工程设计中发挥更大的作用。