"通过欺骗保护隐私:一种新的强化学习规划算法"
摘要
本文探讨了在马尔可夫决策过程(MDPs)中通过欺骗手段保护奖励函数隐私的问题。在许多物理和网络安全领域,当决策可被观察时,保护顺序决策代理的偏好(或奖励)隐私至关重要。例如,在野生动物监测中,代理必须分配巡逻资源,同时不向偷猎者透露动物位置。本文提出了一种基于欺骗理论的新方法,通过两个模型:伪装(隐藏真相)和模拟(展示错误)来解决奖励函数隐私保护问题。首先,本文理论上证明了现有基于伪装的隐私保护方法存在显著隐私泄露。其次,提出了一种新的基于强化学习(RL)的规划算法,该算法使用模拟来有效解决这些隐私问题,同时确保预期奖励的保证。在多个基准问题的实验表明,本文的方法在保护奖励函数隐私方面优于以往的方法。
Read more...








