迭代设计的力量：人类修订编辑如何引领多模态生成模型达到新高度

Posted on 2024-05-27 in CS.AI • 8 words • 1 minute read

Last updated on 2024-07-05

摘要

本文探讨了如何通过人类设计师的修订编辑来指导和增强多模态生成模型在布局设计中的应用。研究基于预训练的大型多模态模型Gemini，通过监督微调任务设置，展示了人类修订编辑在迭代布局细化中的关键作用。尽管人类编辑存在噪声，但通过引入人类修订编辑，模型在设计FID评分上达到了接近人类水平的性能。此外，研究还发现，完全依赖模型自身判断的自修订可能导致生成退化，而早期阶段的人类指导对于最终生成至关重要。

原理

本文的核心在于利用人类设计师的修订编辑来指导多模态生成模型Gemini进行布局设计。通过收集和分析人类设计师在布局设计过程中的迭代修订数据，模型学习如何根据这些修订来改进布局生成。具体来说，模型通过监督学习的方式，利用这些修订数据进行微调，从而在生成布局时能够更好地模拟人类设计师的决策过程和审美判断。这种方法不仅提高了生成布局的质量，还使得模型能够更好地理解和适应人类设计师的工作流程。

流程

论文首先收集了一个名为RARE+的数据集，该数据集详细记录了专业UI设计师如何根据语言提示迭代修改布局的过程。然后，基于这个数据集，研究者对Gemini模型进行了多种监督微调设置的探索。在模型训练过程中，输入包括初始布局状态和语言提示，输出则是经过改进的布局设计。模型通过学习人类设计师的修订轨迹，逐步优化布局生成。例如，在Multi-revision模型中，模型会根据人类修订编辑的子集来预测最终的布局状态，从而在生成过程中引入更多的人类设计智慧。

应用

本文的研究成果在UI设计、图形布局设计等领域具有广泛的应用前景。通过集成人类设计师的修订编辑，生成模型能够更准确地捕捉和实现复杂的设计需求和审美标准。这不仅提高了设计效率，还为设计师提供了强大的辅助工具，使得他们能够更专注于创意和策略层面的工作。未来，这种方法还可以扩展到其他需要复杂决策和创造性思维的领域，如室内设计、产品设计等。