Web2Code：革新多模态大型语言模型的网页理解和代码生成能力

Posted on 2024-06-28 in CS.AI • 11 words • 1 minute read

Last updated on 2024-07-05

摘要

本文介绍了一种名为Web2Code的基准测试，旨在解决多模态大型语言模型（MLLMs）在理解网页截图和生成相应HTML代码方面的不足。Web2Code包含一个新的大规模网页到代码数据集，用于指令调整，以及一个评估框架，用于测试MLLMs在网页理解和HTML代码转换方面的能力。该数据集利用预训练的LLMs来增强现有的网页到代码数据集，并生成新的网页图像。评估框架包括网页理解基准（WUB）和网页代码生成基准（WCGB），通过实验证明，使用该数据集进行微调不仅能显著提高图像到HTML代码的转换能力，还能在一般视觉领域带来改进。

原理

Web2Code的工作原理基于多模态大型语言模型（MLLMs）的能力，这些模型能够处理和推理图像、视频和音频等多种模态。通过引入一个大规模的网页到代码数据集，该数据集包含网页图像和相应的HTML代码，以及关于网页内容的多样化自然语言QA对，模型能够更好地理解网页信息。评估框架通过将生成的HTML代码重新渲染为网页截图，并使用GPT-4V进行质量评估，从而在图像层面上评估生成的网页的保真度。

流程

数据集构建：利用GPT-3.5和GPT-4生成新的网页图像-代码对，并转换为指令遵循数据格式。
模型训练：使用Web2Code数据集对MLLMs进行指令微调，以提高其在网页理解和代码生成方面的能力。
评估过程：通过WUB和WCGB两个基准测试，分别评估模型在网页理解和网页代码生成方面的性能。
结果分析：通过定量和定性分析，展示模型在网页理解和代码生成方面的改进，并探讨其在一般视觉领域的应用潜力。

应用

Web2Code的应用前景广泛，特别是在网页开发自动化、UI原型设计、自动化代理和可访问性改进等领域。通过提高MLLMs在网页理解和代码生成方面的能力，可以显著提升开发效率和用户体验，同时也为未来的内容生成和任务自动化提供了新的可能性。