FlowLearn: 探索大型视觉-语言模型在流程图理解中的应用与挑战

FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding

摘要

本文介绍了《FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding》,该论文专注于评估大型视觉-语言模型(LVLMs)在理解流程图方面的能力。论文提出了FlowLearn数据集,这是一个专门为增强流程图理解而设计的新资源。FlowLearn数据集包含从科学文献中提取的3,858个科学流程图和使用可定制脚本创建的10,000个模拟流程图。数据集通过视觉组件、OCR、Mermaid代码表示和VQA问题-答案对进行丰富注释。尽管LVLMs在多种视觉理解任务中表现出色,但它们在解码流程图方面的有效性尚未得到充分研究。论文通过FlowLearn测试集评估了LVLMs在流程图理解方面的性能,指出了现有模型的局限性,并为未来在这一领域的改进奠定了基础。

Read more...

FlowLearn:探索大型视觉-语言模型在流程图理解中的应用与挑战

FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding

摘要

本文介绍了《FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding》一文,该研究专注于评估大型视觉-语言模型(LVLMs)在理解流程图方面的能力。流程图作为一种图形工具,用于简化复杂概念和过程,广泛应用于科学和工程领域。FlowLearn数据集包含3,858个科学流程图和10,000个模拟流程图,通过丰富的注释(包括视觉组件、OCR、Mermaid代码表示和VQA问答对)来增强对流程图的理解。尽管LVLMs在多种视觉理解任务中表现出色,但其在解码流程图方面的有效性尚未得到充分探索。研究通过FlowLearn测试集评估了当前最先进的LVLMs,识别了现有局限性,并为未来在这一领域的改进奠定了基础。

Read more...

GenTrap:一种基于GNN和Transformer的5G无线链路故障预测框架

A Generalized Transformer-based Radio Link Failure Prediction Framework in 5G RANs

摘要

本文提出了一种名为GenTrap的新型无线链路故障预测框架,该框架针对5G无线接入网络(RAN)中的无线链路故障(RLF)预测系统。GenTrap框架通过引入图神经网络(GNN)基于的可学习天气效应聚合模块和最先进的时间序列转换器,有效地学习了RAN及其周围天气站的时空上下文。该框架能够集成到任何现有的预测模型中,以实现更好的性能和泛化能力。通过在两个真实世界数据集(农村和城市)上进行评估,GenTrap在F1分数上显著优于其他模型,显示出其在5G网络中确保无缝通信和满足高数据速率、低延迟和改进可靠性要求的潜力。

Read more...

Lucy框架:解决大型数据库复杂关系的文本到SQL转换新方案

Lucy: Think and Reason to Solve Text-to-SQL

摘要

本文介绍了一种名为Lucy的新型文本到SQL框架,旨在解决大型企业数据库中复杂关系的问题。Lucy结合了大型语言模型(LLM)的理解能力和自动化推理技术,以处理数据库中的复杂约束。该框架在零样本文本到SQL的复杂基准测试中表现优于现有技术。论文详细分析了LLM在处理大型工业数据库时面临的挑战,并提出了有效的解决方案,展示了Lucy在多个标准基准测试中的显著性能提升。

Read more...

NADI 2024:阿拉伯语方言识别与处理的新挑战与机遇

NADI 2024: The Fifth Nuanced Arabic Dialect Identification Shared Task

摘要

本文介绍了第五届 Nuanced Arabic Dialect Identification Shared Task(NADI 2024)的研究成果。NADI 的目标是通过提供指导、数据集、建模机会和标准化评估条件,帮助推进阿拉伯语 NLP 的发展,使研究人员能够在预先指定的任务上进行协作竞争。NADI 2024 针对方言识别(作为多标签任务)、阿拉伯语方言程度识别(子任务 2)和方言到 MSA 的机器翻译(子任务 3)。共有 51 个独特的团队注册参加共享任务,其中 12 个团队参与(在测试阶段有 76 个有效提交)。其中,三个团队参加了子任务 1,三个团队参加了子任务 2,八个团队参加了子任务 3。获奖团队在子任务 1 上分别实现了 50.57 F1、0.1403 RMSE 和 20.44 BLEU。结果表明,阿拉伯语方言处理任务,如方言识别和机器翻译仍然具有挑战性。我们描述了参与团队所采用的方法,并简要展望了 NADI 的未来。

Read more...

ZOBNN:零开销提升二值神经网络的可靠性,赋能安全关键应用

ZOBNN: Zero-Overhead Dependable Design of Binary Neural Networks with Deliberately Quantized Parameters

摘要

本文介绍了一种名为ZOBNN(Zero-Overhead Dependable Design of Binary Neural Networks with Deliberately Quantized Parameters)的创新技术,旨在提高二值神经网络(BNNs)的可靠性和故障容忍度。通过精心设计的量化方法,ZOBNN在不增加任何计算开销的情况下,显著提升了BNNs对内存故障的鲁棒性。该技术通过限制浮点参数的范围,减少了内存故障对网络输出的影响,从而在保持高精度的同时,实现了对安全关键应用的支持。

Read more...

创新地标定位技术:基于最优传输损失的热图回归在医学图像分析中的应用

Aortic root landmark localization with optimal transport loss for heatmap regression

摘要

本文提出了一种基于最优传输损失的热图回归方法,用于主动脉根部地标定位,旨在减轻医生在经导管主动脉瓣植入手术中的负担。传统的地标预测方法主要采用耗时的两步估计方法,而本文提出的方法能够在粗略图像中实现高精度的单步地标定位。该方法通过应用最优传输损失来打破传统热图回归方法中预测精度和学习稳定性之间的权衡。实验结果表明,该方法在3D CT图像数据集上的估计误差显著优于现有方法和其他损失函数。

Read more...

利用大型语言模型自动化生成高性能计算软件的单元测试

Harnessing the Power of LLMs: Automating Unit Test Generation for High-Performance Computing

摘要

本文探讨了利用大型语言模型(LLMs)自动生成高性能计算(HPC)软件的单元测试的潜力。针对并行和高性能计算软件的单元测试实施面临的挑战,如复杂逻辑和并行处理技术的特殊性,本文评估了Davinci和ChatGPT两种生成模型在C++并行程序单元测试生成中的应用。研究发现,LLMs能够生成大部分语法正确且覆盖率高的单元测试,但也存在重复断言和空白测试用例等局限性。

Read more...

探索 MMSci:提升科学理解的多模态数据集

MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension

摘要

本文介绍了一个名为 MMSci 的多模态、多学科数据集,旨在评估大型语言模型(LLM)和大型多模态模型(LMM)对博士水平科学内容的理解能力。该数据集包含来自 72 个科学学科的高质量、同行评审的学术文章和图表,可用于评估模型对科学文章和图表的理解能力。此外,作者还探索了将该数据集作为训练资源的方法,通过构建视觉指令跟随数据和交错的文章文本和图表图像,提高了模型对科学内容的理解能力。

Read more...

探索RAG增强型LLM在软件集成中的挑战与前景

Vortex under Ripplet: An Empirical Study of RAG-enabled Applications

摘要

本文通过深入研究100个开源应用程序及其问题报告,揭示了在将增强检索生成(RAG)的大型语言模型(LLM)集成到软件系统中时,开发者面临的挑战。研究发现,超过98%的应用程序存在多种集成缺陷,这些缺陷影响了软件的功能性、效率和安全性。文章总结了19种缺陷模式,并提出了相应的解决指南,旨在辅助LLM驱动的软件开发,并激发未来的研究。

Read more...
Previous Page 62 of 156 Next Page