开源与专有大型语言模型在编程反馈生成与评估中的较量

Evaluating Language Models for Generating and Judging Programming Feedback

摘要

本文探讨了大型语言模型(LLMs)在计算教育研究(CER)领域中的应用,特别是在生成和评估编程反馈方面的效率。研究团队评估了开源LLMs(如Meta的Llama3)与专有模型(如GPT-4o)在生成高质量编程反馈及评估反馈质量方面的表现。通过对比分析学生提交的Python编程练习数据集,研究发现开源LLMs在生成和评估编程反馈方面几乎与专有模型持平。此外,研究还展示了较小规模的LLMs在执行这些任务时的效率,强调了多种LLMs对教育者和从业者的可访问性,甚至包括免费使用的选项。

Read more...

探索ArAIEval共享任务:阿拉伯语宣传技巧检测的先进方法与应用前景

ArAIEval Shared Task: Propagandistic Techniques Detection in Unimodal and Multimodal Arabic Content

摘要

本文介绍了ArAIEval共享任务的第二版,该任务是作为ArabicNLP 2024会议的一部分组织的,旨在检测阿拉伯语单模态和多模态内容中的宣传技巧。任务包括两个部分:(i)在推文和新闻文章中检测宣传性文本片段并识别说服技巧,(ii)区分宣传性和非宣传性表情包。共有14支队伍参与了最终评估阶段,其中6支队伍参与了任务1,9支队伍参与了任务2。大多数参与系统以微调变压器模型如AraBERT为核心。本文描述了任务设置,包括数据集构建和评估设置,并简要概述了参与系统。所有数据集和评估脚本都已发布给研究社区,希望这能促进对这些重要任务在阿拉伯语中的进一步研究。

Read more...

探索AriGraph:革新LLM代理的记忆与决策

AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents

摘要

本文介绍了一种名为AriGraph的新型知识图谱世界模型,该模型专为大型语言模型(LLM)代理设计。AriGraph通过利用语义和情景记忆,帮助代理在探索环境时构建和更新知识图谱,从而提高其在复杂决策中的推理和规划能力。研究显示,配备AriGraph的Ariadne LLM代理在TextWorld环境中的零样本学习任务上,显著优于传统的全历史、总结和检索增强生成(RAG)方法。此外,AriGraph代理在处理包括烹饪挑战、房屋清洁和宝藏狩猎等复杂任务时,表现出卓越的性能和适应性。

Read more...

探索Autoverse:一种革命性的可进化游戏语言,推动开放式学习的前沿

Autoverse: An Evolvable Game Langugage for Learning Robust Embodied Agents

摘要

本文介绍了一种名为Autoverse的可进化游戏语言,旨在为单人2D网格游戏创建一个可扩展的训练平台,用于开放式学习(OEL)算法。Autoverse通过类似细胞自动机的重写规则来描述游戏机制,能够表达多种游戏环境,如迷宫、地牢和推箱子谜题,这些都是强化学习(RL)代理的流行测试平台。论文提出了一种通过模仿学习从搜索中启动开放式学习的方法,通过进化Autoverse环境来最大化贪婪树搜索发现新最佳解决方案所需的迭代次数,从而生成一个由越来越复杂的环境和游戏轨迹组成的课程。然后,通过模仿学习将这些专家游戏轨迹提炼成基于神经网络的策略,并使用学习到的策略作为开放式RL的起点。

Read more...

探索GPT与RETRO:检索与参数高效微调的交汇点

GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning

摘要

本文探讨了参数高效微调(PEFT)与检索增强生成(RAG)在大规模语言模型中的应用,特别是对比了GPT和RETRO两种模型架构。论文展示了RETRO模型在零样本设置中由于其独特的预训练过程而优于GPT模型,但GPT模型通过PEFT方法展现出更高的性能潜力。研究还发现,80亿参数模型在成本和性能之间达到了最佳平衡,而P-tuning在PEFT技术中表现相对落后。此外,论文首次全面比较了多种PEFT方法与RAG的集成,应用于GPT和RETRO模型,强调了它们的相对性能。

Read more...

探索NeuFair:通过神经元丢弃技术提升深度神经网络的公平性

NeuFair: Neural Network Fairness Repair with Dropout

摘要

本文探讨了深度神经网络(DNNs)在社会关键领域应用中的公平性问题,特别是在决策过程中可能存在的偏见和歧视。论文提出了一种名为NeuFair的新方法,通过在推理阶段随机丢弃神经元来改善预训练DNNs的公平性。这种方法利用随机化算法,特别是模拟退火(SA)和随机游走(RW),来寻找最优的神经元丢弃集,以最小化歧视同时保持模型的效用。实验结果显示,NeuFair能够有效提高模型公平性(最高达69%的改进),且对模型性能的影响最小。

Read more...

探索Rashomon效应:解锁机器学习的新范式与应用前景

Amazing Things Come From Having Many Good Models

摘要

本文探讨了“Rashomon效应”,即同一数据集存在多个同样优秀的预测模型这一现象。文章提出,在非确定性(噪声)环境下,特别是在表格数据问题中,我们需要重新思考机器学习的方法。文章详细讨论了Rashomon效应如何影响简单而准确的模型存在性、用户偏好的灵活性、预测和解释的不确定性、变量重要性的稳定性、算法选择以及公共政策。此外,文章还讨论了Rashomon效应发生的理论基础及其对社会复杂问题中机器学习应用的巨大影响。

Read more...

探索Rashomon效应:重塑机器学习的新视角

Amazing Things Come From Having Many Good Models

摘要

本文探讨了“Rashomon效应”,即对于同一数据集存在多个同样优秀的预测模型这一现象。文章提出,理解和利用Rashomon效应可以重塑我们对机器学习的思考方式,特别是在非确定性(噪声)环境下的表格数据问题。文章详细讨论了Rashomon效应如何影响简单而准确的模型存在性、用户偏好的灵活性、预测和解释的不确定性、变量重要性的稳定性、算法选择以及公共政策。此外,文章还讨论了Rashomon效应发生的理论和原因,并展示了其在社会复杂问题中使用机器学习的巨大影响。

Read more...

探索三维点云的新几何特征表示:神经变量表示的先进性与应用

Neural varifolds: an aggregate representation for quantifying the geometry of point clouds

摘要

本文提出了一种新的表面几何特征表示方法——神经变量表示(neural varifold representation),用于量化点云的几何特性。点云作为一种流行的三维表示方法,广泛应用于LiDAR和Kinect等现实场景中,因其能够详细且紧凑地表示基于表面的几何形状。传统的点云几何特征表示方法通常结合深度学习技术和几何保真度度量,如最优传输成本(例如Chamfer和Wasserstein度量)。本文的创新之处在于,通过将表面表示为点云位置和切线空间的度量/分布,神经变量表示不仅能够通过基于流形的判别来量化点云的表面几何形状,还能捕捉表面上的细微几何一致性。此外,本文还提出了两种算法,利用点云上的神经网络及其神经切线核表示来计算两个点云之间的变量范数。实验结果表明,所提出的神经变量表示在形状匹配、少样本形状分类和形状重建等任务中,与现有最先进方法相比,表现出了优越的性能。

Read more...

探索人工智能与大脑之间的算法鸿沟:如何构建更接近人类认知的语言模型?

Lost in Translation: The Algorithmic Gap Between LMs and the Brain

摘要

本文探讨了大型语言模型(LMs)与人类大脑在语言处理方面的差异,强调了超越输入-输出行为的重要性,以深入理解这些系统的内部过程。文章讨论了神经科学中的稀疏性、模块化、内部状态和交互式学习等概念如何指导更符合生物学原理的语言模型的发展。此外,文章还探讨了缩放定律在弥合LMs与人类认知之间差距的作用,强调了在生物系统中类似的效率约束的必要性。通过开发更接近大脑功能的LMs,旨在推进人工智能和人类认知理解。

Read more...
Previous Page 67 of 156 Next Page