视觉与语言的融合:开创硬件设计自动化的新纪元

Natural language is not enough: Benchmarking multi-modal generative AI for Verilog generation

摘要

本文探讨了在硬件设计自动化领域中,仅依赖自然语言生成Verilog代码的局限性,并提出了一种多模态生成模型的新方法。该方法结合视觉表示和自然语言处理,旨在提高复杂硬件架构设计的生成效率和准确性。通过引入一个开源的多模态生成模型基准,以及一个视觉和自然语言Verilog查询语言框架,本文展示了多模态模型在Verilog生成任务中显著优于仅依赖自然语言的方法。研究结果表明,这种方法不仅提高了代码生成的准确性,还为未来在大型硬件设计模型时代的硬件设计提供了新的方向。

Read more...

让漫画触手可及:为盲人和低视力读者打造的人工智能辅助阅读新篇章

Toward accessible comics for blind and low vision readers

摘要

本文探讨了如何通过使用提示工程技术对大型语言模型进行微调,结合上下文信息,为盲人和低视力读者生成准确的漫画文本描述。文章提出利用现有的计算机视觉和光学字符识别技术,从漫画图像内容中构建基于事实的上下文,如面板、角色、文本、阅读顺序以及气泡和角色的关联。随后,通过上下文感知的面板描述,包括角色的外观、姿势、情绪、对话等,推断角色身份并生成漫画脚本。研究认为,这种丰富的内容描述可以轻松用于制作有声读物和电子书,为角色、字幕和播放音效提供多种声音。

Read more...

革命性创新:基于生成式AI的文本到游戏引擎重塑角色扮演游戏体验

A Text-to-Game Engine for UGC-Based Role-Playing Games

摘要

本文介绍了一种基于用户生成内容(UGC)的角色扮演游戏(RPG)的文本到游戏引擎框架。该框架利用基础模型将简单的文本输入转换为复杂的交互式RPG体验,动态渲染多模态格式的游戏故事,并实时调整游戏角色、环境和机制以响应玩家行动。通过这一框架,开发了“Zagii”游戏引擎,成功支持了数百种不同类型的RPG游戏,并促进了数万次在线用户游戏实例,验证了框架的有效性。本文展示了生成式AI在游戏生命周期中的变革性影响,预示着一个更加开放和民主化的游戏范式。

Read more...

革命性的心力衰竭预测技术:基于注意力学习的深度模型

Predicting Heart Failure with Attention Learning Techniques Utilizing Cardiovascular Data

摘要

本文介绍了一种基于注意力学习技术的心力衰竭预测方法,该方法利用心血管数据如射血分数和血清肌酐进行预测。文章提出了一种新的注意力学习模型,并通过不同的优化器和学习率进行微调,以提高预测的准确性。研究结果显示,该方法在心力衰竭预测方面表现出色,优于现有的LSTM方法。

Read more...

高效机器遗忘:利用自然梯度下降实现数据删除的新算法

Faster Machine Unlearning via Natural Gradient Descent

摘要

本文针对机器学习模型中数据删除的挑战,提出了一种利用自然梯度下降(Natural Gradient Descent, NGD)的高效算法,以避免从头开始重新训练模型。该算法在凸模型中提供了强有力的隐私保证,并为非凸模型开发了一种实用的Min/Max优化算法。通过全面的评估,该算法在隐私性、计算效率和泛化能力方面显著优于现有方法,推动了机器遗忘理论和实践的发展。

Read more...

"AI与道德决策:为何我们需要自动化,以及如何确保其正当性"

Why should we ever automate moral decision making?

摘要

本文探讨了在人工智能(AI)系统中自动化道德决策的必要性和潜在风险。作者Vincent Conitzer指出,尽管AI在日常决策中已被广泛接受,但在涉及重大道德影响的决策中,由于缺乏精确的数学框架来指导道德推理,人们对此类决策的自动化持怀疑态度。文章提出了几种情况,说明为何即使在缺乏明确道德框架的情况下,我们仍可能需要AI参与道德决策,并简述了这些决策的潜在风险。

Read more...

"CPU上的LLM推理性能优化:新技术与应用前景"

Inference Performance Optimization for Large Language Models on CPUs

摘要

本文探讨了在CPU上优化大型语言模型(LLM)推理性能的问题,特别是在GPU资源受限的环境中。文章提出了一种易于部署的解决方案,通过减少KV缓存大小并确保精度,以及实施分布式推理优化,来加速LLM在CPU上的推理过程。该解决方案支持多种常用LLM模型,并通过实验验证了其在CPU上的良好推理性能可扩展性。

Read more...

"GENIMA:通过图像生成模型解锁视觉运动控制的新纪元"

Generative Image as Action Models

摘要

本文介绍了一种名为GENIMA的新型行为克隆代理,它通过微调Stable Diffusion模型来“绘制关节动作”,并将这些图像输入到一个控制器中,该控制器将视觉目标转换为一系列关节位置。GENIMA在25个RLBench任务和9个真实世界操作任务中进行了研究,发现通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于现有视觉运动控制方法的策略,特别是在场景扰动和泛化到新对象方面。此外,该方法在缺乏深度、关键点或运动规划器等先验知识的情况下,与3D代理竞争。

Read more...

"Pseudo-RIS: 革新引用图像分割的伪监督生成技术"

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation

摘要

本文提出了一种名为Pseudo-RIS的新框架,用于自动生成高质量的分割掩码及其对应的引用表达,作为引用图像分割(RIS)的伪监督。这些伪监督允许训练任何监督的RIS方法,而无需人工标注的成本。通过整合现有的分割和图像字幕基础模型,利用其广泛的泛化能力,Pseudo-RIS能够生成具有高度区分性的引用表达,从而在RIS基准数据集上显著超越弱监督和零样本SoTA方法,甚至在未见领域中超越完全监督方法。此外,将该方法与人工标注结合,进一步凸显了其在半监督学习应用中的潜力。

Read more...

"SaMoye:革命性的零样本歌唱声音转换技术"

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

摘要

本文介绍了一种名为SaMoye的端到端特征解耦模型,用于实现零样本多对多歌唱声音转换(SVC)。SaMoye模型通过将歌唱声音的特征分解为内容、音色和音调特征,实现了在不依赖大量训练样本的情况下,将一首歌的演唱者声音转换为另一个演唱者的声音,同时保持音乐内容如节奏和旋律的一致性。此外,本文还建立了一个大规模的无标签歌唱声音数据集,包含150万个纯净的歌唱声音片段,涵盖至少10,000名歌手,以支持零样本性能。

Read more...
Previous Page 25 of 156 Next Page