创新自监督学习管道:实现面部属性分类的公平性突破

A Self-Supervised Learning Pipeline for Demographically Fair Facial Attribute Classification

摘要

本文提出了一种用于面部属性分类的自监督学习管道,旨在解决自动化面部属性分类中存在的群体偏见问题。传统的偏见缓解技术主要基于监督学习,需要大量标记训练数据以实现泛化和可扩展性。然而,标记数据有限、需要繁琐的注释、存在隐私风险,并可能延续人类偏见。相比之下,自监督学习(SSL)利用自由可用的未标记数据,使训练模型更具可扩展性和泛化性。本文提出的方法通过利用完全未标记的数据,通过预训练编码器生成伪标签,结合多样化的数据筛选技术和基于元学习的加权对比学习,显著优于现有的SSL方法。在FairFace和CelebA数据集上的广泛评估证明了我们的管道在获得公平性能方面的有效性,为SSL在面部属性分类的公平性方面设定了新的基准。

Read more...

利用大型语言模型优化推荐系统:数据填充的新前沿

Semantic Understanding and Data Imputation using Large Language Model to Accelerate Recommendation System

摘要

本文由Zhicheng Ding等人撰写,旨在解决推荐系统中数据稀疏和缺失的问题。传统的数据填充方法难以捕捉数据间的复杂关系,因此本文提出了一种新颖的方法,即利用大型语言模型(LLM)进行数据填充。LLM通过理解大量文本数据中的复杂关系,能够智能地填补缺失信息,从而使推荐系统能够生成更准确和个性化的建议,提升用户体验。本文通过在推荐系统的多个任务中评估LLM填充方法的有效性,证明了其在数据填充方面的优越性。

Read more...

利用视觉语言模型提升机器人强化学习的效率与泛化能力

Affordance-Guided Reinforcement Learning via Visual Prompting

摘要

本文探讨了在机器人强化学习(RL)中,如何通过视觉语言模型(VLM)生成的奖励来提高学习效率和任务完成能力。传统的RL方法在处理通用操作任务时,往往需要大量的数据和人工设计的奖励函数。本文提出了一种基于VLM的奖励塑造方法,通过自然语言描述的任务指令,利用VLM生成密集奖励,从而提高样本效率和任务成功率。实验结果显示,这种方法在20K在线微调步骤内实现了任务的成功完成,并且对领域内演示的数量减少具有鲁棒性。

Read more...

强化学习新视角:Q值适应性在任务适应中的应用

Towards Adapting Reinforcement Learning Agents to New Tasks: Insights from Q-Values

摘要

本文由Ashwin Ramaswamy和Ransalu Senanayake共同撰写,探讨了在强化学习中如何利用Q值来适应新任务的问题。文章指出,尽管当前强化学习研究主要采用策略梯度方法,但基于值的方法在某些领域仍然具有价值,尤其是在如何高效利用样本方面。论文通过设计实验,观察了不同训练算法对Q值学习的影响,并测试了模型在重新训练以完成稍作修改的任务时的适应性。此外,研究还将设置扩展到自动驾驶车辆在无保护交叉口的场景,发现当基础模型的Q值估计接近真实Q值时,模型能更快地适应新任务。研究结果为样本高效的任务适应提供了一些见解和指导。

Read more...

探索AI在生物学研究中的应用:LAB-Bench基准测试的介绍与评估

LAB-Bench: Measuring Capabilities of Language Models for Biology Research

摘要

本文介绍了一种名为Language Agent Biology Benchmark (LAB-Bench)的新型基准测试,旨在评估人工智能系统在生物学研究中的实际应用能力。LAB-Bench包含超过2400个多选题,涵盖了文献回顾与推理、图表解读、数据库访问与导航、DNA和蛋白质序列的理解与操作等多个实际研究任务。与以往的科学基准不同,LAB-Bench强调AI系统在实际研究中的辅助作用,特别是在文献搜索和分子克隆等领域。此外,本文还评估了多个前沿商业和开源模型在该基准上的表现,并与人类生物学专家的性能进行了比较。LAB-Bench将持续更新和扩展,预计将成为开发自动化研究系统的有用工具。

Read more...

探索AutoGRAMS:一种革命性的自主图形代理建模软件

AutoGRAMS: Autonomous Graphical Agent Modeling Software

摘要

AutoGRAMS框架是一种用于编程多步骤与语言模型交互的软件。它将AI代理表示为一个图,其中每个节点可以执行语言模型指令或传统代码,而图中的转换可以由语言模型决策或传统分支逻辑控制。AutoGRAMS支持使用变量作为记忆,并允许节点调用其他AutoGRAMS图作为函数。该框架通过图形中心的方法增强了AI代理设计的可解释性、可控性和安全性。AutoGRAMS的开源框架可在https://github.com/autograms/autograms获取。

Read more...

探索Lean-STaR:将思维链与定理证明交错结合,提升语言模型的推理能力

Lean-STaR: Learning to Interleave Thinking and Proving

摘要

本文介绍了一种名为Lean-STaR的新型框架,旨在通过在每个证明步骤之前生成非正式的思维链(“思维”)来提升语言模型在定理证明中的能力。传统上,基于语言模型的定理证明假设通过在大量形式证明数据上进行训练,模型将学会证明定理。然而,我们的关键观察是,形式证明中未包含的丰富非正式信息对于学习证明定理可能是有用的。Lean-STaR利用回顾性的真实策略生成合成思维,用于训练语言模型。在推理时,训练后的模型直接在预测每个证明步骤的策略之前生成思维。此外,Lean-STaR在自我教学推理者框架的基础上,应用专家迭代算法对模型进行进一步微调,使其在Lean定理证明环境中在miniF2F-test基准上取得了最先进的结果。

Read more...

探索LLMs幻觉之谜:因果视角下的自注意力机制干预

Look Within, Why LLMs Hallucinate: A Causal Perspective

摘要

本文探讨了大型语言模型(LLMs)中的幻觉问题,这是一个在文本理解和生成任务中普遍存在的现象。尽管LLMs在多个下游任务中取得了显著成功,但其幻觉问题严重影响了实际应用。传统的研究主要集中在数据质量上,而本文从因果关系的角度出发,研究了LLMs中的自注意力机制与幻觉之间的关系。文章提出了一种干预自注意力层的方法,通过禁用特定的自注意力层来减轻幻觉问题,并在多个开源LLMs上进行了实验验证。

Read more...

探索PPACE:引领生物医学研究分类的新前沿

Rapid Biomedical Research Classification: The Pandemic PACT Advanced Categorisation Engine

摘要

本文介绍了Pandemic PACT高级分类引擎(PPACE)及其相关数据集。PPACE是一个经过微调的模型,旨在根据WHO对研究优先级的分类,自动分类资助的生物医学项目研究摘要。这对于监测研究趋势和识别全球卫生准备和响应中的差距至关重要。我们的方法基于人工注释的项目,这些项目根据预定义的列表分配一个或多个类别。然后使用大型语言模型生成解释这些注释原因的“理由”。这种包含专家注释和理由的增强数据随后用于微调一个更小、更高效的模型。作为Pandemic PACT项目的一部分,PPACE支持研究资助者、政策制定者和独立研究人员的明智决策。我们介绍了并发布了训练模型和用于其训练的基于指令的数据集。我们的评估显示,PPACE显著优于其基线模型。PPACE及其相关数据集的发布为多标签生物医学文档分类领域的研究人员提供了宝贵的资源,并支持将生物医学研究与关键全球卫生优先级对齐的进展。

Read more...

探索课程学习在提升代码语言模型性能中的潜力

Curriculum Learning for Small Code Language Models

摘要

本文探讨了课程学习(Curriculum Learning, CL)在提升小型代码语言模型性能方面的潜力。尽管先前研究表明课程学习并不一定能提高语言模型的性能,但本文意外地发现,对于代码语言模型,精心设计的课程学习方法能显著提升其在代码执行任务上的准确性,尽管对代码完成任务的影响较小。研究通过训练多个具有100万参数的GPT模型来预测下一个令牌,并在代码完成和执行任务上进行评估。主要贡献包括提出一种结合软件代码度量的新颖代码难度评估指标,探索课程学习对代码语言模型的有效性,并引入一种新颖的课程学习计划,以提高小型解码器专用语言模型在代码执行任务上的性能。研究结果为代码语言模型的课程学习应用开启了更多研究之门。

Read more...
Previous Page 11 of 156 Next Page