"保护儿童网络安全:多模态大型语言模型在应用成熟度评级中的创新应用"

Multimodal Chain-of-Thought Reasoning via ChatGPT to Protect Children from Age-Inappropriate Apps

摘要

本文探讨了如何利用多模态大型语言模型(MLLMs)通过ChatGPT进行链式思维(CoT)推理,以保护儿童免受不适龄应用的影响。文章首次系统研究了应用成熟度评级与MLLMs的结合,设计了CoT赋能的提示,指导MLLM遵循一系列逻辑步骤推导应用的成熟度级别。通过在App Store收集的数据集上进行广泛实验,结果显示所提出的方法在不同LLM模型和多模态融合策略中均表现出色。

原理

本文提出的框架利用ChatGPT-4 Vision处理应用的多模态数据(包括文本描述和截图),并通过CoT推理引导MLLM模型逐步从初始内容分析到最终成熟度评级确定。CoT推理通过一系列逻辑步骤,首先识别和排序截图中的成熟内容及其强度,然后结合文本描述和筛选出的截图,最终确定应用的成熟度评级。这种方法通过明确地整合CoT推理,使ChatGPT能更好地理解和应用成熟度政策,从而提高评级准确性。

流程

  1. 成熟内容和强度提取:利用CoT推理处理每个截图,识别成熟内容(MC)及其强度(I),并根据成熟度评级政策对截图进行排序。
  2. 成熟度评级确定:结合排名最高的截图和文本描述,通过CoT推理确定最终的成熟度评级。 例如,对于一个包含暴力内容的应用,首先识别出截图中的暴力元素及其强度,然后结合应用的文本描述,最终确定该应用的成熟度评级为17+。

应用

该研究的方法不仅限于App Store,还可以扩展到其他应用平台,如Google Play等,为全球范围内的应用评级提供标准化和自动化的解决方案。随着多模态学习和大型语言模型的进一步发展,这种方法有望在更广泛的数字内容管理领域发挥作用,如视频游戏、电影和在线内容的自动评级。