探索电子商务中的产品属性识别:一种生成式方法的全面评估
摘要
本文由Kassem Sabeh等人撰写,针对电子商务平台中的产品属性-值识别(PAVI)任务,提出了一种生成式方法,并通过实验对比了三种不同的属性-值生成(AVG)策略。这些策略基于微调的编码器-解码器模型,旨在从产品信息中识别出属性及其对应的值。实验结果显示,端到端AVG方法在计算效率上表现最佳,但不同模型大小和基础语言模型会影响其性能。该研究为PAVI任务提供了全面的评估,并公开了所有实验的代码和数据集,以便于复现和进一步研究。
原理
本文提出的三种AVG策略分别是:1) 管道式AVG,将任务分解为值提取和属性生成两个子任务,分别训练模型;2) 多任务AVG,使用单一共享模型同时训练两个子任务;3) 端到端AVG,使用单一模型直接生成属性-值对。这些策略基于微调的语言模型如T5和BART,通过最大化条件对数似然来优化模型。端到端AVG方法通过直接生成属性-值对,简化了流程并提高了效率,但其性能受模型大小和基础语言模型的影响。
流程
以产品标题“Fossil Men’s Watch Analog Display Slim Case Design with Brown Leather Band”为例,管道式AVG首先提取值候选(如“Brown”),然后生成对应的属性(如“Band Color”)。多任务AVG则使用单一模型同时处理这两个子任务。端到端AVG直接从输入生成完整的属性-值对(如“Brand: Fossil, Band Color: Brown, Band Material: Leather”)。实验中,所有模型在三个真实世界产品数据集上进行了评估,结果显示端到端AVG在多数情况下表现最佳。
应用
PAVI技术在电子商务领域具有广泛的应用前景,包括产品搜索、推荐系统和问答系统等。通过准确识别产品属性及其值,可以提升用户体验和购买决策的准确性。随着生成式模型的进一步发展,PAVI技术有望在更多领域得到应用,特别是在需要动态生成和识别属性的场景中。
