GCX:计算资源交易的创新平台

Commodification of Compute

摘要

本文介绍了一种全球计算交换平台(GCX),旨在解决计算资源分配效率低下的问题。该平台利用区块链技术和智能合约,创建了一个安全、透明、高效的计算能力买卖市场。通过标准化计算单位、建立分层架构和引入创新的去中心化金融交易技术,GCX 有望优化资源利用、稳定价格,并促进计算资源的民主化访问。

Read more...

HuatuoGPT-Vision:引领医学多模态大型语言模型的新纪元

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

摘要

本文介绍了一种名为HuatuoGPT-Vision的新型多模态大型语言模型(MLLM),旨在通过大规模注入医学视觉知识来提升模型的医学多模态能力。该研究通过精心筛选和处理PubMed中的医学图像-文本对,利用GPT-4V模型进行数据去噪和格式化,构建了一个包含130万医学视觉问答(VQA)样本的高质量数据集PubMedVision。实验验证表明,PubMedVision显著提升了现有MLLM的医学多模态能力,并在多个基准测试中显示出优越性能。此外,使用PubMedVision训练的34B参数医学MLLM HuatuoGPT-Vision在开放源代码的MLLM中表现出最佳性能。

Read more...

Hyper-MORL:高效学习多目标连续机器人控制Pareto集合的先进算法

Learning Pareto Set for Multi-Objective Continuous Robot Control

摘要

本文介绍了一种名为Hyper-MORL的先进多目标强化学习(MORL)算法,该算法旨在解决具有多个冲突目标的连续机器人控制问题。传统的MORL算法在处理这类问题时,通常需要搜索大量的Pareto最优深度策略,这非常耗费资源。Hyper-MORL通过使用单一的超网络(hypernet)学习Pareto集合的连续表示,从而在高度维度的策略参数空间中直接生成各种根据用户偏好训练良好的策略网络,大大提高了资源效率。实验结果表明,Hyper-MORL在七个多目标连续机器人控制问题上与两种最先进的MORL算法相比,实现了最佳的整体性能和最少的训练参数。此外,研究还发现Pareto集合在高维参数空间中可以很好地被一条曲线或曲面近似,这一发现为设计新的MORL算法提供了有价值的见解。

Read more...

IBM GRANITE-20B-FUNCTIONCALLING:开启大型语言模型的新纪元,实现复杂函数调用的自主代理

Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks

摘要

本文介绍了IBM的GRANITE-20B-FUNCTIONCALLING模型,这是一个通过多任务学习方法训练的大型语言模型(LLM),旨在赋予模型识别、调用和与外部工具及API交互的能力。该模型在多个领域如编程、推理和多模态交互中展现出广泛的应用潜力。通过在七个基本任务上的训练,包括嵌套函数调用、函数链、并行函数、函数名检测、参数-值对检测、下一个最佳函数和响应生成,GRANITE-20B-FUNCTIONCALLING模型在多个跨领域的数据集上进行了全面评估,显示出优于其他开源模型的性能,并在Berkeley函数调用排行榜上位列第四。

Read more...

ManiWAV:利用音频信号革新机器人操作技能学习

ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data

摘要

本文介绍了一种名为ManiWAV的创新系统,该系统利用音频信号来辅助机器人学习复杂的接触性操作技能。在视觉信息不明确或不完整的情况下,音频信号提供了丰富的接触信息,如接触事件、接触模式、表面材料和物体状态,从而显著简化了机器人操作策略的学习过程。ManiWAV系统通过一个便携式的“耳-手”设备收集野外环境中的人类演示,并利用这些数据直接训练机器人的操作策略。该系统在四个不同的接触性操作任务中展示了其能力,并证明了能够从多样化的野外数据中学习并推广到未见过的环境。

Read more...

PathAlign:革新病理学分析的视觉-语言模型

PathAlign: A vision-language model for whole slide images in histopathology

摘要

本文介绍了一种名为PathAlign的视觉-语言模型,专门用于处理组织病理学中的全切片图像(WSIs)。这些图像的微观解释对于许多重要的诊断和治疗决策至关重要。PathAlign模型基于BLIP-2框架,利用WSIs与病理报告中的精选文本配对,实现了图像-文本嵌入空间的共享应用,如文本或图像检索,以及与冻结的大型语言模型(LLM)集成,以实现基于WSI的生成文本能力,如报告生成或AI辅助交互。该模型在超过350,000个WSIs和诊断文本对的数据集上进行了训练,并展示了其在文本生成和文本检索方面的有效性,以及在WSI分类和工作流程优先级排序(幻灯片级分类)方面的应用。

Read more...

TrustUQA:统一结构化数据问答的可信框架

TrustUQA: A Trustful Framework for Unified Structured Data Question Answering

摘要

本文提出了一种名为 TrustUQA 的可信框架,用于统一结构化数据的问答。该框架采用了一种名为条件图(CG)的统一知识表示方法,并使用了一种基于 LLM 和演示的两级方法进行 CG 查询。此外,还配备了动态演示检索功能。通过在 5 个基准数据集上的实验,证明了 TrustUQA 的有效性,并展示了其在混合结构化数据和跨结构化数据问答方面的潜力。

Read more...

人工智能中的动作与变化推理:理论与应用

Reasoning About Action and Change

摘要

本文探讨了人工智能领域中关于动作和变化的推理形式化研究。文章首先定义了动作推理领域的基本概念,包括系统状态、本体和认知动作、观察等,并介绍了基本的推理过程,如预测、推进、回归、后推、过滤、溯因和外推。接着,文章回顾了经典的动作表示问题,并展示了在标准框架中如何解决这些问题。文章重点讨论了几个主要设置:情景演算、STRIPS和一些命题动作语言、动态逻辑以及动态贝叶斯网络。最后,文章讨论了一个特殊的推进案例,即信念更新。

Read more...

人工智能在教育测量中的应用:潜力与挑战

The Rise of Artificial Intelligence in Educational Measurement: Opportunities and Ethical Challenges

摘要

本文探讨了人工智能在教育测量中的应用,包括自动项目生成、自动评分、分数报告和反馈、其他关注点等方面。文章强调了人工智能在教育测量中的潜力和挑战,以及如何确保其有效、可靠、公平和道德地使用。

Read more...

保障未来:AI机器人数字孪生系统的隐私安全挑战与前景

A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics

摘要

本文《A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics》由Ivan A. Fernandez等人撰写,探讨了在AI与机器人技术融合的背景下,数字孪生系统面临的隐私攻击问题。文章指出,尽管AI/ML与数字孪生技术为复杂机器人的发展带来了诸多益处,但同时也引入了潜在的隐私与安全风险。论文详细调查了针对AI机器人数字孪生系统的隐私攻击,包括数据泄露和模型提取等,并讨论了设计考虑因素,如ML模型训练、负责任的AI与数字孪生防护措施、数据治理和伦理考量,以及如何通过信任自主性方法来实现安全可靠的AI机器人系统。

Read more...
Previous Page 132 of 156 Next Page