创新解决方案:确保高级人工智能代理的可关闭性与有用性
摘要
本文探讨了高级人工智能代理可能抵抗关闭的问题,并提出了一种解决方案——不完整偏好提案(IPP)。该提案的核心是使用一种新颖的“相同长度轨迹的折扣奖励(DREST)”奖励函数来训练代理,使其在每个轨迹长度下有效追求目标(称为“有用性”),并在不同轨迹长度之间随机选择(称为“中性”)。文章提出并评估了有用性和中性的评估指标,通过在简单的网格世界环境中训练代理,发现这些代理能够学习到有用和中性的行为。研究结果表明,DREST奖励函数可以训练高级代理成为有用和中性的,从而使其变得有用且可关闭。
原理
DREST奖励函数的工作原理基于两个关键概念:有用性和中性。有用性确保代理在每个轨迹长度下都能有效追求目标,而中性则确保代理在不同轨迹长度之间进行随机选择。具体来说,DREST奖励函数通过在每个迷你剧集中根据代理选择的轨迹长度和之前的选择历史来折扣初步奖励,从而激励代理在元剧集中随机选择不同的轨迹长度。这种设计使得代理的最优策略是随机选择轨迹长度,并在每个轨迹长度下最大化初步奖励,从而满足不完整偏好提案(IPP)的要求。
流程
在训练过程中,代理在一个元剧集中进行多个迷你剧集的探索。每个迷你剧集结束后,代理根据其选择的轨迹长度和之前的选择历史获得一个折扣后的初步奖励。这个折扣后的奖励是代理在该迷你剧集中的总体奖励。通过这种方式,代理被激励在元剧集中随机选择不同的轨迹长度,并在每个轨迹长度下最大化初步奖励。例如,在一个包含硬币和关闭延迟按钮的网格世界中,代理学习到在按下按钮和不按下按钮之间随机选择,并在每种情况下收集不同的硬币,从而实现有用性和中性的行为。
应用
DREST奖励函数的应用前景广阔,特别是在需要确保高级人工智能代理可关闭且有用的场景中。通过训练代理成为有用和中性的,可以减少代理抵抗关闭的风险,这对于确保人工智能系统的安全性和可控性至关重要。此外,研究结果表明,使用DREST奖励函数训练代理的“关闭能力税”较小,这意味着在实际应用中,训练可关闭且有用的高级代理可能不会比仅训练有用的代理消耗更多的计算资源。
