视觉叙事的新评估方法:量化模型与人类故事的距离
摘要
本文探讨了视觉叙事任务的评估方法,该任务涉及从一系列时间顺序的图像生成自然语言故事。文章指出,由于缺乏关于“好故事”的共识,自动评估指标难以准确评价模型生成的故事质量。为此,研究者提出了一种新的评估方法,该方法通过测量故事在视觉基础、连贯性和重复性三个关键方面的“人性化”程度来评估故事质量。研究结果显示,尽管大型基础模型LLaVA在某些方面表现优异,但升级后的TAPM模型在参数数量大幅减少的情况下,仍能与LLaVA竞争。此外,通过人工评估发现,尽管模型生成的故事在某些量化指标上接近人类水平,但人类仍然偏好人类编写的故事,这表明好的故事可能不仅仅依赖于这些量化指标。
原理
本文提出的评估方法通过三个关键维度来衡量模型生成故事的质量:视觉基础、连贯性和重复性。视觉基础通过GROOViST指标来衡量,该指标计算故事中的名词短语与图像中边界框的对齐程度。连贯性通过修改版的RoViST-C指标来评估,该指标计算每个句子跟随前一句子的概率。重复性则通过RoViST-NR指标来测量,该指标使用Jaccard相似度来计算文本段落间的重复程度。最终,通过计算模型生成故事与人类编写故事在这些维度上的距离,得出总体的距离分数dHM,距离越小表示故事质量越高。
流程
研究者首先定义了评估故事质量的三个维度:视觉基础、连贯性和重复性,并分别使用GROOViST、RoViST-C和RoViST-NR这三个指标来量化这些维度。然后,对于每个<图像序列, 模型故事>对,计算这些指标的分数,并与相应的人类故事的分数进行比较,计算出每个维度的距离。最后,将这些维度的距离平均,得到总体的距离分数dHM。通过这种方法,研究者评估了多个模型在视觉叙事任务上的表现,并展示了LLaVA和升级后的TAPM模型在不同数据集上的表现。
应用
本文提出的评估方法和模型改进策略为视觉叙事任务提供了新的视角和工具,有助于推动相关技术的发展。未来,这种方法可以应用于更广泛的视觉叙事模型评估,以及在保持模型效率的同时提高生成故事的质量。此外,该研究还强调了人工评估的重要性,提示未来的研究应更多关注模型生成内容与人类偏好之间的差异。
