零样本识别:大型语言模型在智能家居活动识别中的革命性应用
摘要
本文介绍了一种基于大型语言模型(LLM)的零样本日常活动识别系统ADL-LLM。该系统通过将传感器数据转换为文本表示,利用LLM进行零样本识别,无需大量标注数据。此外,当有少量标注数据可用时,ADL-LLM还能通过少样本提示机制进一步提高识别准确率。研究在两个公开数据集上验证了ADL-LLM的有效性,展示了其在日常活动识别领域的应用前景。
Read more...本文介绍了一种基于大型语言模型(LLM)的零样本日常活动识别系统ADL-LLM。该系统通过将传感器数据转换为文本表示,利用LLM进行零样本识别,无需大量标注数据。此外,当有少量标注数据可用时,ADL-LLM还能通过少样本提示机制进一步提高识别准确率。研究在两个公开数据集上验证了ADL-LLM的有效性,展示了其在日常活动识别领域的应用前景。
Read more...本文探讨了利用深度神经网络进行通用量子断层摄影的方法,特别是在量子状态断层摄影中的应用。量子状态断层摄影是量子系统状态表征的关键技术,对于量子技术的多种应用至关重要。传统方法在处理混合量子状态时存在效率和准确性的挑战。本文提出了两种基于神经网络的方法:限制特征基神经网络(RFB-Net)和混合状态条件生成对抗网络(MS-CGAN),这两种方法能够有效地重建混合量子状态,展示了神经网络在量子状态断层摄影中的先进性和潜力。
Read more...本文由Sota Kaneko和Seiji Yamada共同撰写,探讨了在人机合作中预测信任动态的重要性。文章提出了一种使用动态结构方程建模(DSEM)的方法来预测人类对人工智能的信任动态,特别是在自动驾驶系统和无人机模拟任务中的应用。该方法通过处理时间序列数据,能够有效地预测过度信任或不足信任的情况,准确率高达90%以上。文章还讨论了信任动态预测在优化人机协作中的潜在应用前景。
Read more...本文是关于高光谱全色锐化的综述性论文,作者设计了一个大型且多样化的数据集,选择了一组最先进的方法,在单一的 PyTorch 框架中重新实现了它们,并使用最认可的质量指标对所有方法进行了批判性的比较分析,最后提供了一个易于使用的工具箱,包括数据、工具和结果,以简化新解决方案的开发并推动该领域的进展。
<工作原理> 高光谱全色锐化是将高分辨率全色波段和低分辨率高光谱图像融合,以获得在空间和光谱域都具有高分辨率的新图像。本文介绍了高光谱全色锐化的方法,包括基于组件替换(CS)、多分辨率分析(MRA)、基于模型的优化(MBO)和深度学习(DL)的方法。其中,深度学习方法是目前最流行的方法,作者选择了七种最先进的深度学习方法,并对它们进行了详细的介绍和分析。
<工作流程> 作者首先扫描文献,确定了一组基准最先进的方法。然后,作者构建了一个新的开发和测试工具箱,包括一个大型的高质量 PAN+HS 图像数据集,用于可靠和统一的性能评估,并支持基于深度学习的方法的准确训练。最后,作者对所有方法进行了性能评估,包括在降低分辨率和全分辨率下的评估,并使用最认可的指标进行评估。
<应用前景> 高光谱全色锐化在遥感领域有广泛的应用,包括分类、目标检测、土地利用/覆盖制图、作物监测和土地物理参数估计等。本文提供的框架和工具将有助于开发和评估新的高光谱全色锐化解决方案,推动该领域的发展。
<标题> 高光谱全色锐化:关键评论、工具和未来展望
Read more...本文介绍了一种基于Segment Anything Model (SAM)的高效刀具磨损分割方法,该方法结合了U-Net作为自动提示生成器,以简化刀具磨损检测过程。研究涵盖了三种兴趣点生成方法,并进一步探讨了训练数据集大小和U-Net训练强度对磨损分割结果的影响。结果显示,即使在有限的训练数据集下,该方法也能实现准确的磨损分割,强调了其在工业场景中的潜在应用价值。
Read more...本文介绍了一种名为“Efficient MultiSupervision (EMS)”的方法,用于增强文档级关系抽取(DocRE)的效率和鲁棒性。该方法通过结合远监督和专家监督,从大规模数据集中选择信息丰富的文档子集,并使用多监督排序损失(MSRL)进行模型训练,以减轻噪声的影响。实验表明,EMS方法在提高模型性能的同时,显著提高了时间效率。
Read more...本文介绍了一种创新框架,该框架结合了扩散模型和控制障碍函数(CBF),用于离线多智能体强化学习(MARL)中的安全约束问题。在多智能体强化学习的最新进展中,其应用已扩展到各种安全关键场景,但大多数方法侧重于在线学习,这在实际部署中存在重大风险。本文提出的方法通过在MARL范式中集成扩散模型,显著提高了多个智能体采取行动的安全性,同时通过风险缓解和协调行动建模来增强安全性。该框架基于集中训练与分散执行(CTDE)架构,并增加了扩散模型用于预测轨迹生成。此外,还引入了一种专门算法以进一步确保操作安全。实验结果表明,该模型不仅遵守严格的安全约束,而且在性能上优于现有方法,这强调了该方法在推进现实应用中MARL的安全性和有效性的潜力。
Read more...本文介绍了一种基于最大熵逆强化学习(IRL)的方法,用于改进扩散生成模型的样本质量,特别是在生成时间步数较少的情况下。该方法通过训练扩散模型使用从训练数据估计的对数概率密度,类似于IRL基于专家演示学习奖励函数来训练策略。由于采用了基于能量模型(EBM)来表示对数密度,该方法简化为扩散模型和EBM的联合训练。提出的IRL框架名为Diffusion by Maximum Entropy IRL(DxMI),是一个达到平衡时两个模型都收敛到数据分布的最小最大问题。此外,还提出了Diffusion by Dynamic Programming(DxDP),一种用于扩散模型的新型强化学习算法,作为DxMI的子程序,通过将原始问题转化为最优控制问题,使扩散模型更新在DxMI中更高效。实验表明,使用DxMI微调的扩散模型可以在仅4到10步内生成高质量样本,并能训练EBM而无需MCMC,稳定EBM训练动态并提高异常检测性能。
Read more...本文介绍了一种新颖的神经常微分方程(NODE)训练方法,旨在稳健地学习混沌动力系统。该方法通过将训练数据轨迹分割成多个不重叠的时间窗口,并进一步惩罚预测轨迹在时间窗口间的间断性,有效解决了混沌系统中非凸性和梯度爆炸的问题。此方法首先在Lorenz方程上进行了验证,展示了其如何改善损失景观并加速优化收敛。随后,该算法被应用于Kuramoto-Sivashinsky方程和二维Kolmogorov流等混沌系统,证明了其在短期轨迹预测和不变统计量方面的可行性。
Read more...本文探讨了大型视觉-语言模型(LVLMs)在多模态交互中产生的幻觉问题,特别是在先前生成的幻觉影响下,模型是否会被误导并产生错误响应的问题。研究提出了一个名为MMHalSnowball的框架,用于评估LVLMs在遇到生成的幻觉时的行为,并发现开源LVLMs的性能至少下降了31%。为了缓解这一问题,研究进一步提出了一种无需额外训练的方法——残余视觉解码(Residual Visual Decoding, RVD),通过调整模型的输出分布,使其直接访问视觉信息,实验显示这种方法可以减少超过24%的幻觉累积,同时保持模型的能力。
Read more...