小数据环境下的革命性突破:自动神经网络专利景观系统
摘要
本文介绍了一种在“小数据”环境下自动构建神经网络专利景观的方法。专利景观是识别与特定技术领域相关的所有专利的过程,对于评估知识产权的覆盖范围、价值或上下文,以及理解特定行业的创新方向、速度或集中度非常重要。传统的专利景观构建过程既费时又昂贵,尤其是在需要高度专业化的技术知识来评估专利是否应包括在内的情况下。本文提出的系统通过使用深度神经网络和主动学习方法,显著提高了在困难示例上的性能(0.69 F1分数),并且在使用更少的训练数据(仅24个示例)时也取得了显著的改进(0.75 F1分数)。此外,本文还展示了一种高质量训练数据生成过程,通过结合Abood和Feltenberger的“种子/反种子”方法与主动学习,收集了决策边界附近的困难标记示例。
原理
本文提出的自动神经网络专利景观系统基于深度神经网络(DNN)和主动学习技术。系统首先从专家手动标注的“种子”专利开始,这些种子专利是特定技术领域的正例。然后,通过“种子/反种子”方法快速生成大量负例(反种子),这些反种子是从不共享CPC代码、没有专利家族关系且未被种子专利引用的专利中采样的。接下来,利用主动学习策略,通过一个支持向量机(SVM)模型来识别决策边界附近的专利,这些专利被认为是“困难”示例,并由人工进行标注。最后,使用这些高质量的训练数据来训练深度神经网络模型,该模型结合了多种信息源,包括专利文本(如摘要、声明和描述)、CPC代码和引用网络信息。
流程
- 数据收集:从USPTO获取2,020个AI领域的种子专利和56,093个反种子专利。
 - 主动学习标注:使用自设计的标注工具Patentify,结合SVM模型,识别并标注决策边界附近的专利。
 - 模型训练:使用标注的数据训练深度神经网络模型,该模型包括五个输入流:三个用于文本(摘要、声明和描述),一个用于引用,一个用于CPC代码。
 - 模型评估:通过5折交叉验证评估模型性能,特别是在困难示例上的表现。
 - 结果分析:分析模型在不同数据集大小下的学习曲线,特别是在小数据集(如24个示例)下的表现。
 
应用
该自动神经网络专利景观系统可以广泛应用于知识产权管理、技术创新评估和政策制定等领域。通过快速准确地构建专利景观,企业和政府可以更好地理解技术发展趋势,评估竞争风险,制定投资策略,以及优化知识产权战略。此外,该系统在小数据环境下的高效性能,使其特别适合于高度专业化的技术领域,这些领域通常缺乏大量的标记数据。
