FlowLearn: 探索大型视觉-语言模型在流程图理解中的应用与挑战
摘要
本文介绍了《FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding》,该论文专注于评估大型视觉-语言模型(LVLMs)在理解流程图方面的能力。论文提出了FlowLearn数据集,这是一个专门为增强流程图理解而设计的新资源。FlowLearn数据集包含从科学文献中提取的3,858个科学流程图和使用可定制脚本创建的10,000个模拟流程图。数据集通过视觉组件、OCR、Mermaid代码表示和VQA问题-答案对进行丰富注释。尽管LVLMs在多种视觉理解任务中表现出色,但它们在解码流程图方面的有效性尚未得到充分研究。论文通过FlowLearn测试集评估了LVLMs在流程图理解方面的性能,指出了现有模型的局限性,并为未来在这一领域的改进奠定了基础。
Read more...








