探索AI公平性:Ballot框架如何通过创新剪枝技术提升DNN软件的伦理行为

Efficient DNN-Powered Software with Fair Sparse Models

摘要

本文探讨了在软件3.0时代,将大型模型压缩并集成到软件系统中对社会公平性的影响。文章指出,尽管模型压缩技术在减少模型大小和复杂性方面取得了显著进展,但这些技术往往会影响模型的公平性能,从而影响基于深度神经网络(DNN)的软件的伦理行为。特别是,流行的模型剪枝方法——彩票假设(LTH)在选择子网络和训练过程中存在公平性问题。为了解决这一问题,本文提出了一种新的剪枝框架——Ballot,该框架采用基于冲突检测的子网络选择方法,结合改进的训练过程,以找到既准确又公平的子网络,从而提高基于DNN的软件的公平性。通过在五个流行数据集和三个广泛使用的模型上的评估,Ballot在公平性方面比现有基线方法有显著提升。

Read more...

探索AI在不同文化背景下的LGBTQ+偏见:ChatGPT与Bard的对比分析

Exploring LGBTQ+ Bias in Generative AI Answers across Different Country and Religious Contexts

摘要

本文探讨了生成式人工智能(AI)在不同国家和宗教背景下对LGBTQ+群体的偏见问题。研究通过分析ChatGPT 3.5和Google Bard对含有同性恋恐惧症言论的回应,发现ChatGPT的回答表现出文化相对主义,而Bard则强调人权并更多地支持LGBTQ+议题。研究指出,AI系统可能会根据用户背景信息调整其对LGBTQ+人群的支持程度和形式,强调了AI回应的社会和伦理影响,并认为任何旨在使生成式AI输出更具文化多样性的工作都需要基于基本人权。

Read more...

探索AI在自动化系统中的正式模型:AIAS模型的先进性与应用前景

A Formal Model for Artificial Intelligence Applications in Automation Systems

摘要

本文介绍了一种用于自动化系统中人工智能应用的正式模型,旨在通过标准和本体论提供清晰和结构化的文档,以解决当前自动化系统、AI软件、生产硬件及其相互依赖关系的复杂组合缺乏标准化文档的问题。该模型利用本体设计模式(ODPs)来映射和链接自动化系统和AI软件的各个方面,并通过实际案例验证了其有效性,展示了在工业环境中改善文档实践和促进AI可持续实施的能力。

Read more...

探索AI文本检测的新前沿:RoBERTa-BiLSTM模型的应用与挑战

Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text

摘要

本文探讨了在自然语言处理(NLP)领域中,如何有效区分人工智能(AI)生成的文本与人类作者创作的文本。随着大型语言模型(LLMs)在生成流畅文本方面的能力日益增强,其在新闻、教育和学术等领域的潜在滥用问题也日益凸显。SemEval 2024任务8旨在开发自动化系统,以识别机器生成的文本并检测其潜在的滥用情况。本文提出了一种基于RoBERTa-BiLSTM的分类器,该分类器能够将文本分类为AI生成或人类生成,并通过对比实验评估了其有效性。该研究对于推动自动文本检测系统的发展,应对机器生成文本滥用带来的挑战具有重要意义。

Read more...

探索APTAI:一种新型的声学音素到发音语音反转技术

Speaker- and Text-Independent Estimation of Articulatory Movements and Phoneme Alignments from Speech

摘要

本文介绍了一种新颖的结合任务,即声学语音反转(AAI)和音素到发音(PTA)运动估计的联合任务,称为声学音素到发音语音反转(APTAI)。该研究探索了两种不同的方法,这两种方法在推理过程中都能独立于说话者和文本进行工作。通过多任务学习设置,目标是从原始语音输入中估计相应的发音运动、音素序列和音素对齐。两种方法在实现音素相关预测的方式上有所不同:一种是基于帧分类,另一种是基于两阶段训练过程和强制对齐。研究在AAI任务中达到了0.73的平均相关性,与最先进的文本依赖音素强制对齐器相比,实现了高达约87%的帧重叠。

Read more...

探索LLMs在科学综合评估中的应用:潜力与挑战

Large Language Models as Evaluators for Scientific Synthesis

摘要

本文探讨了最先进的Large Language Models(LLMs),如GPT-4和Mistral,如何评估科学摘要的质量,特别是科学综合评估,并将它们的评估与人类注释者的评估进行比较。研究使用了100个研究问题及其由GPT-4从五个相关论文的摘要中生成的综合,与人类质量评级进行对比。初步结果显示,LLMs能提供逻辑解释,与质量评级有一定匹配,但深入的统计分析显示LLM与人类评级之间的相关性较弱,表明LLMs在科学综合评估中的潜力和当前限制。

Read more...

探索MedPix 2.0:构建多模态生物医学数据集的新里程碑

MedPix 2.0: A Comprehensive Multimodal Biomedical Dataset for Advanced AI Applications

摘要

本文介绍了一种名为MedPix 2.0的全面多模态生物医学数据集,旨在支持高级人工智能应用,特别是在医疗领域的应用。由于隐私问题,高质量医疗数据集的缺乏一直是开发人工智能应用的主要障碍。MedPix 2.0数据集通过半自动管道提取视觉和文本数据,并通过手动校正过程去除噪声样本,构建了一个MongoDB数据库。此外,还开发了一个图形用户界面(GUI),以便高效地导航MongoDB实例并获取原始数据,用于训练和/或微调多模态大型语言模型(MLLM)。论文还提出了一种基于CLIP的模型,该模型在MedPix 2.0上训练,用于扫描分类任务。

Read more...

探索MindBench:引领心智图结构识别与分析的新前沿

MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis

摘要

本文介绍了一种名为MindBench的综合性基准测试,用于心智图结构识别与分析。该基准测试不仅包括精心构建的双语真实或合成图像、详细注释、评估指标和基线模型,还特别设计了五种类型的结构理解与解析任务。这些任务涵盖了文本识别、空间感知、关系辨别和结构化解析等关键领域。实验结果表明,当前模型在处理结构化文档信息方面具有巨大的潜力和改进空间。预计MindBench的推出将显著推动结构化文档分析技术的研究和应用开发。

Read more...

探索NLP采样:结合MCMC与约束优化的新方法及其在机器人学中的应用

NLP Sampling: Combining MCMC and NLP Methods for Diverse Constrained Sampling

摘要

本文介绍了一种名为“NLP Sampling”的新方法,该方法结合了马尔可夫链蒙特卡洛(MCMC)、约束优化以及机器人学领域的技术,旨在生成多样化的样本以满足硬约束条件。该方法提出了一种重启双阶段采样框架,通过集成来自不同领域的技术,并在分析问题和机器人操作规划问题上进行评估,展示了其优势。此外,文章还讨论了拉格朗日参数的作用、全局采样、扩散NLP以及与扩散去噪模型的关系,为未来的NLP采样研究提供了新的视角和机会。

Read more...

探索Planetarium:严格基准推动自然语言到PDDL转换的进步

Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

摘要

本文介绍了一项关于使用大型语言模型(LLMs)解决规划问题的研究,特别是将自然语言描述的规划任务转换为结构化规划语言(如PDDL)的方法。尽管这种方法具有潜力,但准确评估生成的PDDL代码的质量仍然是一个挑战。现有的评估方法主要依赖于规划验证器,这些验证器只能检查生成的代码是否可以被规划器解决,而不能确保代码与自然语言描述的任务一致。此外,现有的评估集往往包含与真实PDDL非常相似的自然语言描述,降低了任务的难度。为了解决这些问题,本文引入了Planetarium基准,旨在评估语言模型从自然语言描述生成PDDL代码的能力。该基准通过创建一个PDDL等价算法来严格评估生成的PDDL代码的正确性,并提供了一个包含132,037个文本到PDDL对的数据集,涵盖13个不同难度的任务。最后,本文评估了多个API访问和开源语言模型,揭示了这一任务的复杂性,并强调了需要更严格的基准来评估这一问题。

Read more...
Previous Page 84 of 156 Next Page