DiffuRec: 如何使用扩散模型进行序列推荐

  • Post author:
  • Post category:其他




TLDR:

针对传统推荐算法存在的表征能力有限、不确定性等挑战,本文提出一种利用扩散模型进行序列推荐的工作,该工作能够实现高质量、多样性的推荐效果。

作为一种新的生成范式,扩散模型在图像生成领域取得了非常出色的性能,相较于现有的VAE、GAN,扩散模型训练稳定,而且能够生成更多样、更高质量的样本。然而,在推荐系统领域,鲜有工作使用扩散模型实现高质量、多样性的推荐。对此,武汉大学与南洋理工大学的科研人员合作探索使用扩散模型进行序列推荐,通过实验分析扩散模型相较于常见的基线模型如SASRec、VAE模型的性能表现,以及其训练、推理的效率和推荐的多样性。

c7feecca98a58c7263ac5cd4af37cd44.png

论文:https://arxiv.org/abs/2304.00686

摘要

主流的序列推荐模型通常将用户兴趣和商品建模为一个固定的向量表征,然而该方法在捕获用户兴趣多样性和商品潜在特征的方面能力有限。基于可靠的理论证明,扩散模型能够有效的将图片、语音、文本等原始信号建模为分布表征。因此,我们首次提出DiffuRec,尝试利用扩散模型建模用户兴趣和商品的分布以实现序列推荐。具体来说,在前向扩散阶段(Diffusion),DiffuRec通过逐次添加高斯噪声将目标商品的向量表征退化为一个高斯分布。然后我们将该高斯分布引入至序列商品的分布表征建模中,同时设计和训练一个逼近器(Approximator)基于商品序列重构目标商品分布表征。在后向逆扩散阶段(Reversion),我们首先生成一个标准高斯分布作为输入,然后利用商品序列和逼近器逐步从高斯分布中还原预测目标商品的分布表征。最后基于投影函数,将预测目标商品分布映射至对应的商品索引中,实现序列推荐。

研究动机

尽管现有的序列推荐模型取得了不错的效果,但是它们无法同时较好实现如下四个方面:


1. 商品多维潜在表征建模:

如图1所示,在电影推荐场景中,每部电影往往包含多个主题即潜在表征,如《美丽人生》应同时包含战争和爱情两个主题,而《泰坦尼克》应仅包含爱情主题。固定的商品向量表征对于多维潜在表征建模能力有限。尽管VAE模型能够将商品表征建模为分布,但是后验分布坍缩和表征能力有限等问题制约着该方法进一步取得较优的效果。


2. 用户多兴趣表征建模:

如图1所示,用户的兴趣也应是多方面的且往往随着时间发生转移。尽管有工作使用多个向量表征建模用户多兴趣,但是选择合适数目的向量表征是一个启发式的过程,且该数目很难自适应的进行调整。因此,将用户多兴趣建模为分布表征可以有效缓解这一问题。


3. 推荐的不确定性:

由于用户兴趣的多样性和迁移,用户当前的兴趣偏好往往带有一定的不确定性。另一方面,推荐结果的多样性、新颖性、不确定性和惊喜度也是优秀的推荐系统所期待的。我们认为,将商品和用户兴趣建模为分布表征,同时引入一定的不确定性,十分必要。


4. 目标商品的引导:

目标商品可以作为监督信号引入至模型训练过程中,以辅助模型理解和捕获用户的当前意图和偏好。然而,现有大部分工作均将目标商品引入至序列建模中。

2d4468d36702376f9c5908e9ced2f637.png

图1. 用户多兴趣和电影多主题示意图

DiffuRec模型介绍

DiffuRec模型结构如图2所示,其主要包括三个部分:1)逼近器(Approximator);2)前向扩散过程(Diffusion Phase);3)后向逆扩散过程(Reversion Phase)。


Approximator:

我们使用标准的Transformer作为逼近器的主体结构,同时基于扩散或逆扩散过程中目标商品的分布表征,建模序列商品的潜在表征分布和用户的多兴趣表征。此外,我们从高斯采样,建模序列推荐的不确定性。


前向扩散过程:

给定目标商品的嵌入表征(embedding),首先基于一步马尔可夫过程建模目标商品的分布表征,然后逐次添加高斯噪声将其退化为高斯分布。我们训练逼近器从高斯分布中重构目标商品分布表征。


后向逆扩散过程:

给定标准正态分布,基于逼近器逐步重构至。最后定义投影函数(Rounding),将还原所得的目标商品分布表征映射至商品索引空间实现序列推荐。

37302fc91a6b4b6aa9844c583888dbce.png

图2. DiffuRec 模型结构

前向扩散过程及后向逆扩散过程算法流程如图3所示:

43cebc2b07542cb5e9b4fe8feba792e4.png

图3. 前向扩散过程及后向逆扩散过程伪代码

实验分析


整体性能:

我们在四个公开数据集上进行了实验,结果表明DiffuRec相比于其他多兴趣建模、VAE及不确定性分布表征建模方法均有一定的性能提升。

bd5b8550234f0da7493802ffd12c7f75.png


不确定性分析:

我们随机生成100个标准高斯分布表征,基于逆扩散过程重构目标商品表征。然后利用t-SNE将与其他商品表征投影至二维平面可视化。观察发现,其他商品表征均匀的弥散至整个空间,而重构商品表征紧密的聚在一起但同时相互间又保持分离。我们认为该特性能够增加推荐结果的不确定性和多样性。

5321fc45e85dc2d0bfe4494526737715.png

结论

该工作主要关注序列推荐中商品潜在多维表征、用户多兴趣表征和不确定性。对此,基于扩散模型天然的分布表征建模的特性,我们提出DiffuRec,首次使用扩散模型将商品和用户兴趣表征建模为分布而非固定的向量表征。在扩散过程,DiffuRec将目标商品表征退化为高斯分布,并训练逼近器重构商品表征。逆扩散过程,给定标准高斯分布基于逼近器逐步还原目标商品表征并实现推荐。实验结果证明了DiffuRec在四个真实世界数据集上的优越性。作为一种新的生成式模型范式,扩散模型在推荐领域的探索仍十分有限,我们希望这项工作能在这个方向带来一定的启发。

参考文献

[1] Gong S, Li M, Feng J, et al. Diffuseq: Sequence to sequence text generation with diffusion models[J]. arXiv preprint arXiv:2210.08933, 2022.

[2] Li X, Thickstun J, Gulrajani I, et al. Diffusion-lm improves controllable text generation[J]. Advances in Neural Information Processing Systems, 2022, 35: 4328-4343.

[3] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in Neural Information Processing Systems, 2020, 33: 6840-6851.

[4] Nichol A Q, Dhariwal P. Improved denoising diffusion probabilistic models[C]//International Conference on Machine Learning. PMLR, 2021: 8162-8171.