探索Qifusion-Net:引领多口音语音识别的新前沿

Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition

摘要

本文介绍了一种名为Qifusion-Net的端到端多口音语音识别模型,该模型通过层适应融合(LAF)策略,无需预先了解目标口音信息即可有效识别多口音语音。基于动态块策略,Qifusion-Net支持流式和非流式解码模式,并能在帧级别提取声学特征,实现细粒度信息融合。实验结果显示,Qifusion-Net在KeSpeech和MagicData-RMAC数据集上的字符错误率(CER)分别降低了22.1%和17.2%,显著优于基线模型。

Read more...

探索Talkamatic Dialogue Manager的谈判对话新特性:扩展对话AI的应用边界

Towards Negotiative Dialogue for the Talkamatic Dialogue Manager

摘要

本文介绍了Talkamatic Dialogue Manager(TDM)在谈判对话方面的初步实现,这是Tala项目第一阶段的一部分。TDM是一个商业化的对话AI平台,旨在通过引入谈判对话功能,扩展其应用范围,并简化开发者对通用对话现象的特定领域解决方案的需求。论文详细描述了TDM如何通过数据收集和分析,识别并实现了一系列与谈判对话相关的新特性,如询问替代方案、知识前提问题和修改搜索标准等。这些新特性使得TDM能够更灵活地处理复杂的对话流程,提高对话系统的自然性和效率。

Read more...

探索Wav2Vec2.0:揭秘神经语音模型中的类人语言偏差

Human-like Linguistic Biases in Neural Speech Models: Phonetic Categorization and Phonotactic Constraints in Wav2Vec2.0

摘要

本文探讨了深度神经语音模型Wav2Vec2.0在音素分类和音位约束方面的表现,特别是其如何处理语音中的模糊声音。通过模拟人类语音感知实验,研究者们发现Wav2Vec2模型能够像人类一样,根据上下文中的音位约束来区分模糊的/l/和/r/音素。这一发现揭示了自监督学习模型在语音识别任务中的潜在能力,尤其是在处理复杂的语音上下文信息方面。

Read more...

探索XAI方法的可靠性与稳定性:eXirt的突破与应用前景

How Reliable and Stable are Explanations of XAI Methods?

摘要

本文探讨了可解释人工智能(XAI)方法的可靠性和稳定性问题。随着黑盒模型在日常生活中的广泛应用,XAI方法应运而生,旨在生成关于模型如何进行预测的额外解释。研究通过使用糖尿病数据集和四种不同的机器学习模型(LGBM、MLP、DT和KNN),创建了不同级别的测试数据扰动,并使用eXirt方法生成模型解释,以评估这些方法在面对扰动时的稳定性。研究发现,eXirt能够识别最可靠的模型,并指出当前的XAI方法对扰动敏感,除了eXirt之外的其他方法需要进一步改进以提高稳定性。

Read more...

探索医疗领域大型视觉语言模型的幻觉问题:MedVH基准数据集的引入与评估

MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context

摘要

本文介绍了一项针对医疗领域大型视觉语言模型(LVLMs)幻觉现象的系统评估研究。论文提出了一个新的基准数据集——医疗视觉幻觉测试(MedVH),用于评估LVLMs在医疗环境中的幻觉问题。MedVH包含五个任务,旨在全面理解文本和视觉输入,以及生成长文本响应。实验结果表明,尽管医疗LVLMs在标准医疗任务上表现出色,但它们在幻觉问题上比通用模型更为脆弱,这引发了对其在实际医疗应用中可靠性的严重担忧。

Read more...

探索在线广告公平性:FairJob数据集及其在职位推荐中的应用

FairJob: A Real-World Dataset for Fairness in Online Systems

摘要

本文介绍了一种名为FairJob的数据集,该数据集专门设计用于在线广告系统中的职位推荐公平性研究。该数据集从真实的广告场景中收集,遵循隐私标准和商业保密协议,特别关注了在缺乏敏感用户属性(如性别)访问权限的情况下如何评估和提升算法的公平性。尽管数据集中的用户信息已被匿名化,并且包含一个性别的代理估计,但该数据集保持了预测能力和现实挑战性。FairJob数据集填补了高影响力领域(如广告)中公平性资源可用性的重要空白,特别是在平衡公平性和实用性方面,这是工业界常见的挑战。此外,本文还探讨了广告过程中可能出现不公平性的各个阶段,并提出了一种计算在线系统中职位推荐公平效用指标的方法。实验评估显示,通过在发布的数据集上应用偏差缓解技术,可以潜在地改善公平性,并了解与实用性的权衡关系。

Read more...

探索基于注意力机制的对比学习在音频欺骗检测中的应用

Towards Attention-based Contrastive Learning for Audio Spoof Detection

摘要

本文介绍了一种基于注意力机制的对比学习框架(SSAST-CL),用于音频欺骗检测任务。该研究通过引入视觉变换器(ViT)来解决音频欺骗检测中的分类问题,特别是在ASVSpoof 2021挑战赛中展示了其有效性。论文提出的解决方案通过结合自注意力和交叉注意力机制,以及对比学习方法,有效地分离了真实音频和欺骗音频的类别,显著提高了分类器的性能。

Read more...

探索多模态对话中的情感与意图联合理解:MC-EIU数据集与EI2网络

Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset

摘要

本文介绍了一种名为“多模态对话中的情感与意图联合理解”(MC-EIU)的新型基准数据集。该数据集旨在解码多模态对话历史中展现的语义信息,同时推断当前话语的情感和意图。MC-EIU是许多人机交互界面的使能技术,但目前缺乏在标注、模态、语言多样性和可访问性方面的可用数据集。本文提出的MC-EIU数据集具有7种情感类别、9种意图类别、3种模态(文本、声学和视觉内容)以及两种语言(英语和普通话),并且完全开源免费访问。此外,本文还开发了一个名为“情感与意图交互”(EI2)网络的参考系统,通过建模多模态对话中的情感与意图之间的深度关联,展示了所提出的EI2方法在MC-EIU数据集上的有效性。

Read more...

探索多模态对话中的情感与意图联合理解:新数据集与网络模型

Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset

摘要

本文介绍了一种名为“多模态对话中的情感与意图联合理解”(MC-EIU)的新型基准数据集。该数据集旨在解码多模态对话历史中展现的语义信息,并同时推断当前话语的情感和意图。MC-EIU是许多人机交互界面的关键技术,但目前缺乏在标注、模态、语言多样性和可访问性方面的可用数据集。本文提出的MC-EIU数据集具有7种情感类别、9种意图类别、3种模态(文本、声学和视觉内容)以及两种语言(英语和普通话),并且完全开源免费访问。此外,本文还开发了一个名为“情感与意图交互”(EI2)网络的参考系统,通过建模多模态对话中的情感与意图之间的深度关联来支持MC-EIU任务。通过比较实验和消融研究,本文证明了所提出的EI2方法在MC-EIU数据集上的有效性。

Read more...

探索大型语言模型在代码约束处理中的挑战与前景

ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages

摘要

本文介绍了一项关于评估大型语言模型(LLMs)在特定领域语言(DSLs)中代码约束理解能力的前沿研究。研究团队提出了两个新颖的任务:代码生成和DSL验证,旨在测试LLMs在处理硬性和软性约束时的可控性。研究发现,尽管LLMs在资源丰富的语言中表现出色,但它们在理解和遵循代码格式中的细粒度约束方面仍面临挑战,尤其是在Python和XML格式中。此外,研究还探讨了不同输入表示对模型性能的影响,并强调了在实际应用中提高LLMs对代码约束理解能力的重要性。

Read more...
Previous Page 85 of 156 Next Page