Web2Code:革新多模态大型语言模型的网页理解和代码生成能力
摘要
本文介绍了一种名为Web2Code的基准测试,旨在解决多模态大型语言模型(MLLMs)在理解网页截图和生成相应HTML代码方面的不足。Web2Code包含一个新的大规模网页到代码数据集,用于指令调整,以及一个评估框架,用于测试MLLMs在网页理解和HTML代码转换方面的能力。该数据集利用预训练的LLMs来增强现有的网页到代码数据集,并生成新的网页图像。评估框架包括网页理解基准(WUB)和网页代码生成基准(WCGB),通过实验证明,使用该数据集进行微调不仅能显著提高图像到HTML代码的转换能力,还能在一般视觉领域带来改进。
原理
Web2Code的工作原理基于多模态大型语言模型(MLLMs)的能力,这些模型能够处理和推理图像、视频和音频等多种模态。通过引入一个大规模的网页到代码数据集,该数据集包含网页图像和相应的HTML代码,以及关于网页内容的多样化自然语言QA对,模型能够更好地理解网页信息。评估框架通过将生成的HTML代码重新渲染为网页截图,并使用GPT-4V进行质量评估,从而在图像层面上评估生成的网页的保真度。
流程
- 数据集构建:利用GPT-3.5和GPT-4生成新的网页图像-代码对,并转换为指令遵循数据格式。
 - 模型训练:使用Web2Code数据集对MLLMs进行指令微调,以提高其在网页理解和代码生成方面的能力。
 - 评估过程:通过WUB和WCGB两个基准测试,分别评估模型在网页理解和网页代码生成方面的性能。
 - 结果分析:通过定量和定性分析,展示模型在网页理解和代码生成方面的改进,并探讨其在一般视觉领域的应用潜力。
 
应用
Web2Code的应用前景广泛,特别是在网页开发自动化、UI原型设计、自动化代理和可访问性改进等领域。通过提高MLLMs在网页理解和代码生成方面的能力,可以显著提升开发效率和用户体验,同时也为未来的内容生成和任务自动化提供了新的可能性。
