时间:2017年5月
出处:
http://blog.csdn.net/csearch/article/details/71315610
声明:版权所有,转载请联系作者并注明出
在推荐系统中,用户对物品的行为数据可以转化成图的形式,具体来说,可以转化为二分图进行表示,基于图来考虑推荐问题也是一种常用的思路之一。
1.PageRank模型
PageRank是Google网页排序的经典算法,这里只做简要概述,详细的算法推导过程及实现,可以网上找找相关资料,挺多的。
PageRank是Larry Page 和 Sergey Brin设计的用来衡量特定网页相对于搜索引擎中其他网页的重要性的算法,其计算结果作为google搜索结果中网页排名的重要指标。
* 网页之间通过超链接相互连接,互联网上不计其数的网页就构成了一张超大的图。
* PageRank假设用户从所有网页中随机选择一个网页进行浏览,然后通过超链接在网页直接不断跳转。
* 算法令用户继续浏览的概率为d,用户以相等的概率在当前页面的所有超链接中随机选择一个继续浏览。
* 这是一个随机游走的过程。当经过很多次这样的游走之后,每个网页被访问用户访问到的概率就会收敛到一个稳定值。这个概率就是网页的重要性指标,被用于网页排名。
算法迭代关系式如下所示:
P
R
(
i
)
=
1
−
a
l
p
h
a
N
+
a
l
p
h
a
∑
i
∈
i
n
(
i
)
P
R
(
j
)
|
o
u
t
e
r
(
j
)
|
上式中
* PR(i)是网页i的访问概率(也就是重要度)
* alpha是用户继续访问网页的概率
* N是网页总数
* in(i)表示指向网页i的网页集合
* out(j)表示网页j指向的网页集合
接下来我们分析一下这个公式,网页i被访问到的概率由两部分组成:
* 第一部分是网页i作为起点,第一个被和用户点击后停留在当前页面的概率,即:
1
−
a
l