创新解决方案:确保高级人工智能代理的可关闭性与有用性
摘要
本文探讨了高级人工智能代理可能抵抗关闭的问题,并提出了一种解决方案——不完整偏好提案(IPP)。该提案的核心是使用一种新颖的“相同长度轨迹的折扣奖励(DREST)”奖励函数来训练代理,使其在每个轨迹长度下有效追求目标(称为“有用性”),并在不同轨迹长度之间随机选择(称为“中性”)。文章提出并评估了有用性和中性的评估指标,通过在简单的网格世界环境中训练代理,发现这些代理能够学习到有用和中性的行为。研究结果表明,DREST奖励函数可以训练高级代理成为有用和中性的,从而使其变得有用且可关闭。
Read more...








