AlphaRec:利用语言模型革新推荐系统的新范式
摘要
本文探讨了语言模型(LMs)在推荐系统领域中的应用,特别是它们是否能够隐式地编码用户偏好信息。传统观点认为LMs和推荐模型由于语言和行为建模目标的巨大差异,学习的是两个不同的表示空间。然而,本文通过实验证明,从先进的LMs表示空间线性映射得到的物品表示能够显著提升推荐性能,这表明语言表示空间和有效推荐空间之间存在同态关系。基于这一发现,作者提出了一个简单而有效的协同过滤(CF)模型AlphaRec,该模型利用物品文本元数据(如标题)的语言表示,而不是传统的基于ID的嵌入,从而在多个数据集上超越了领先的基于ID的CF模型。AlphaRec的提出标志着基于文本嵌入的推荐系统的新范式的开始,具有易于实现、轻量级、快速收敛、在新领域中具有出色的零样本推荐能力以及能够理解用户意图等优点。
Read more...CAV-AD:革新性的CAV网络异常检测与恶意传感器识别框架
摘要
本文提出了一种名为CAV-AD的鲁棒框架,用于检测连接和自动化车辆(CAV)网络中的异常数据和恶意传感器。CAV网络因其依赖传感器读数而易受攻击,这些攻击可能通过操纵传感器读数来危及网络安全性。尽管已有多种异常检测(AD)方法被提出,但它们在检测多个传感器中的特定异常或识别受攻击的特定传感器方面存在局限。CAV-AD框架通过两个主要组件解决了这些问题:一是优化全尺度CNN(O-OS-CNN)模型架构,该架构通过生成所有可能的核大小来优化时间尺度选择;二是放大块,通过增加异常读数的值来提高异常检测的敏感性。此外,CAV-AD还集成了卡尔曼滤波器(KF)以即时识别恶意传感器。实验结果表明,CAV-AD在检测多种异常攻击方面优于现有方法,实现了98%的平均准确率和89%的平均F1分数。
Read more...CLAMP-ViT:引领视觉变换器数据无源量化的新纪元
摘要
本文介绍了一种名为CLAMP-ViT的新型数据无源后训练量化方法,专门针对视觉变换器(ViTs)。该方法解决了现有技术在利用补丁间关系生成简单且语义模糊数据方面的局限性,影响量化精度。CLAMP-ViT采用两阶段方法,循环适应数据生成和模型量化。具体来说,它结合了补丁级对比学习方案来生成更丰富、语义上有意义的数据,并利用对比学习在层级进化搜索中识别最优量化参数,同时减轻非平滑损失景观的影响。广泛的评估表明,CLAMP-ViT在各种视觉任务中表现优于现有方法,分类任务的top-1准确率提高了高达3%,目标检测的平均精度提高了0.6 mAP,分割任务的平均交并比提高了1.5 mIoU,且在相似或更好的压缩比下。
Read more...ElecBench:电力系统操作中大型语言模型的创新评估基准
摘要
本文介绍了一项名为“ElecBench”的创新评估基准,旨在为电力系统操作中的大型语言模型(LLM)提供全面、深入的性能评估。随着可再生能源集成和电力市场动态的复杂性增加,电力部门对技术创新的需求日益迫切。ElecBench通过提供覆盖特定行业场景的全面测试、深化专业知识测试以及提高决策精确度,解决了现有评估基准的不足。该框架将场景分为通用知识和专业业务,进一步细分为六个核心性能指标:事实性、逻辑性、稳定性、安全性、公平性和表达性,并细分为24个子指标,深入洞察LLM在电力部门应用的能力和局限性。ElecBench旨在成为电力部门LLM应用的标准基准,支持场景、指标和模型的持续更新,推动技术进步和应用。
Read more...FastSpiker:加速脉冲神经网络训练的新方法,助力绿色AI发展
摘要
本文介绍了一种名为FastSpiker的新方法,旨在通过学习率增强技术,加速在事件驱动数据上的脉冲神经网络(SNN)训练,特别针对自主嵌入式系统。FastSpiker通过研究不同学习率策略及其值的影响,选择能够快速提供高精度的策略,并通过统计决策探索这些策略的最佳设置。实验结果表明,FastSpiker能够将训练时间缩短至多10.5倍,碳排放减少高达88.39%,同时达到与现有技术相当或更高的精度。这一方法为实现自主嵌入式系统中的绿色和可持续计算铺平了道路。
Read more...FM-OSD:利用基础模型实现一次性医学图像地标检测的突破
摘要
本文介绍了一种名为FM-OSD的新型框架,该框架利用基础模型实现了一次性解剖地标检测。在医学图像处理领域,准确的地标检测对于疾病诊断、治疗规划和注册初始化等临床应用至关重要。传统的深度学习方法虽然取得了高精度的检测结果,但通常需要大量高质量的标记数据,这在实际临床应用中难以获取。FM-OSD框架通过仅使用单一模板图像,无需额外未标记数据,实现了高效且准确的地标检测,显著优于现有的最先进一次性地标检测方法。
Read more...IBM Vela和Blue Vela:推动AI模型训练与部署的创新基础设施
摘要
本文详细介绍了IBM的Vela和Blue Vela AI基础设施,这两者是IBM用于开发和部署高级AI模型的关键基础设施。随着生成式AI和基础模型的兴起,对大规模计算集群的需求急剧增加,这些集群需要数千个GPU协同工作以在合理时间内完成模型训练。IBM的解决方案结合了硬件、软件和整体遥测技术,以支持多种AI工作负载。Vela是一个AI优化的超级计算能力,直接集成到IBM云中,提供可扩展、动态、多租户和地理分布的基础设施,用于大规模模型训练和其他AI工作流程步骤。Blue Vela则是一个大规模、专门构建的本地托管环境,优化支持IBM最大和最雄心勃勃的AI模型训练任务。这两者共同为IBM提供了在AI模型和商业产品开发中快速创新的能力。
Read more...IL-TUR:印度法律文本理解与推理的基准
摘要
本文介绍了一种名为 IL-TUR 的基准,用于印度法律文本的理解和推理。该基准包含了八个任务,需要不同类型的法律知识和技能来解决。作者还报告了每个任务的基线模型结果,并实验了各种 LLM。结果表明,这些任务远未得到解决,需要更多的研究。此外,作者还计划开发一个通用模型,以提高模型的泛化能力和工作效率。
Read more...KOALA:在资源受限的IoT环境中实现高效、隐私保护的大型模型微调
摘要
本文介绍了一种名为KOALA(联邦知识转移微调大型服务器模型与资源受限的物联网客户端)的新方法,旨在解决在物联网(IoT)环境中微调大型模型时面临的数据隐私和资源限制问题。KOALA通过结合联邦学习和知识蒸馏技术,实现了在资源受限的IoT客户端上运行小型模型,同时通过迭代学习过程与服务器上的大型模型进行知识转移。这种方法不仅保护了数据隐私,还显著减少了本地存储和计算资源的需求,为在IoT场景中部署大型模型提供了有效的解决方案。
Read more...








