"从最少到最多:构建即插即用的视觉推理器"

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis

摘要

本文探讨了视觉语言模型(VLMs)在多步骤推理中的应用,这是一个由于缺乏包含多步骤视觉和语言处理的数据而具有挑战性的问题。为了克服这一挑战,研究者提出了一种从最少到最多的视觉推理范式,该范式通过分解问题为子问题并调用外部工具来解决这些子问题。此外,还提出了一种新颖的数据合成方法,能够以自底向上的方式自动为图像创建问题和多步骤推理路径。这种方法将复杂的合成任务分解为几个简单的子任务,并几乎完全依赖开源模型来完成这些子任务,从而确保了合成过程的可重复性和成本效益。通过这种方法,研究者构建了50,000个视觉推理示例,并通过监督微调开发了一个视觉推理器,能够以即插即用的方式普遍增强现有VLMs的推理能力。实验表明,该视觉推理器能够持续且显著地提高四个VLMs在四个VQA基准上的性能。

Read more...

"创新的地理空间基础模型:高效预测森林地上生物量"

Fine-tuning of Geospatial Foundation Models for Aboveground Biomass Estimation

摘要

本文探讨了利用地理空间基础模型(Geospatial Foundation Models, GFMs)进行巴西不同生态区域地上生物量(Above-Ground Biomass, AGB)估计的有效性。通过微调基于Swin-B变换器的地理空间基础模型,使用来自巴西不同生态区域的卫星数据,论文展示了该模型在稀疏标签预测任务中的性能与从头训练的U-Net相当,尽管其参数数量仅为U-Net的十分之一,从而节省了时间和计算资源。此外,论文还探讨了这些模型的迁移学习能力,通过在巴西不同生态区域的稀疏标签卫星图像上进行微调。

Read more...

"创新视频压缩技术:R2S方法引领存储效率新纪元"

Optimal Video Compression using Pixel Shift Tracking

摘要

本文由Hitesh Saai Mananchery Panneerselvam和Smit Anand共同撰写,提出了一种名为“Redundancy Removal using Shift (R2S)”的视频压缩方法。该方法通过识别和移除视频帧间的冗余像素数据,以达到优化视频存储的目的。传统视频压缩方法多依赖硬编码规则,而近年来基于机器学习(ML)的视频压缩算法显示出更高的效率。R2S方法通过像素点跟踪技术,识别帧间重复的像素,并仅存储其位置信息,从而大幅减少存储需求。此外,该方法支持多种机器学习模型算法,提高了压缩的适应性和可访问性。

Read more...

"大型语言模型与搜索引擎的融合:开启智能信息检索的新纪元"

When Search Engine Services meet Large Language Models: Visions and Challenges

摘要

本文探讨了大型语言模型(LLMs)与搜索引擎服务的结合,分析了这种结合如何共同提升两者的技术能力。文章主要关注两个方面:使用搜索引擎改进LLMs(Search4LLM)和利用LLMs增强搜索引擎功能(LLM4Search)。通过深入分析,本文展示了这种集成如何通过提供多样化和高质量的数据集、改进查询理解和响应生成、以及增强搜索结果的相关性和质量,来推动服务计算领域的发展。同时,文章也指出了这种集成面临的挑战,包括模型训练中的偏见和伦理问题、计算成本的管理以及对不断变化的网络内容的持续更新需求。

Read more...

"小波转换器:自回归图像生成的新前沿"

Wavelets Are All You Need for Autoregressive Image Generation

摘要

本文介绍了一种基于小波图像编码和语言转换器的新型自回归图像生成方法。该方法通过小波图像编码将图像的视觉细节从粗到细进行标记化,并利用专门设计的语言转换器学习这些标记序列中的统计相关性。实验结果表明,该方法在生成高分辨率图像方面具有显著效果,并且能够通过条件生成过程实现多样化的图像输出。

Read more...

"揭示大型语言模型的内在逻辑:理性提取与解释的新视角"

Evaluating Human Alignment and Model Faithfulness of LLM Rationale

摘要

本文探讨了大型语言模型(LLMs)如何通过提取的理性(rationales)来解释其生成内容,这些理性是从输入文本中提取的标记,反映了LLMs的决策过程。研究通过两种方法提取理性:基于归因的方法(使用注意力或梯度定位重要标记)和基于提示的方法(通过提示引导LLMs提取理性)。实验结果显示,基于提示的理性与人工标注的理性更为一致,即使在模型性能较差的情况下也能合理地与人类推理对齐。此外,研究发现基于提示的方法的忠实度限制可能与其预测崩溃有关。通过在相应数据集上微调这些模型,基于提示和归因的方法都显示出忠实度的提高。本研究为LLM理性的更严格和公平评估提供了见解,特别是对于基于提示的方法。

Read more...

"揭秘图像字幕生成:基于CNN和分层注意力的可解释AI技术"

Explainable Image Captioning using CNN- CNN architecture and Hierarchical Attention

摘要

本文介绍了一种使用CNN架构和分层注意力机制的可解释图像字幕生成技术。图像字幕生成是一种为图像生成文本描述的技术,传统的深度学习解决方案虽然有效,但用户对字幕生成过程的理解不足,模型预测的解释性差,因此被称为“黑盒”方法。本文提出的方法通过引入可解释AI,使得模型生成的字幕可以被解释和可视化,提高了模型的可信度和用户之间的互操作性。此外,该模型采用了一种新的CNN解码器和分层注意力概念,以提高字幕生成的速度和准确性。模型在MSCOCO数据集上进行了训练和评估,并展示了定量和定性的结果。

Read more...

"数据驱动下的Lipschitz连续性:提升深度神经网络对抗鲁棒性的经济高效方法"

Data-Driven Lipschitz Continuity: A Cost-Effective Approach to Improve Adversarial Robustness

摘要

本文针对深度神经网络(DNNs)的安全性和鲁棒性问题,提出了一种基于数据驱动的Lipschitz连续性方法,以提高对抗性攻击下的模型鲁棒性。该方法通过重新映射输入域到一个受限范围,降低Lipschitz常数,从而增强模型的鲁棒性。与传统的对抗训练模型不同,本方法无需重新训练,几乎不增加额外成本,且实验结果表明该方法在CIFAR10、CIFAR100和ImageNet数据集上达到了最佳的鲁棒精度。

Read more...

"突破带宽限制:新型算法稳定训练大型语言模型"

Enhancing Stability for Large Models Training in Constrained Bandwidth Networks

摘要

本文探讨了在带宽受限的网络环境中训练大型语言模型时遇到的不稳定性问题。作者分析了ZeRO++算法中存在的收敛问题,特别是在使用分层分区(hpZ)方案时可能出现的竞争条件。为了解决这些问题,论文提出了一种改进的分区算法,该算法通过引入显式的CUDA同步点来确保参数分区在集体通信之前正确完成。实验证明,这一改进不仅提高了训练的稳定性,还保持了高效的训练效率和可扩展性。

Read more...

"超越人类偏好:LLMs如何革新强化学习轨迹评估与改进"

Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs

摘要

本文由Zichao Shen等人撰写,探讨了强化学习(RL)在复杂游戏任务中评估策略轨迹的挑战,特别是在设计全面且精确的奖励函数方面的困难。文章提出了一种基于大型语言模型(LLMs)的自动偏好生成框架LLM4PG,该框架利用LLMs抽象轨迹、排序偏好并重建奖励函数,以优化条件策略。实验表明,LLM4PG能有效加速RL算法的收敛,并克服原始奖励结构下的停滞问题,减少对专业人类知识的依赖,展示了LLMs在复杂环境中增强RL效能的潜力。

Read more...
Previous Page 120 of 156 Next Page