这是一篇很有意思的文章,文章讲座interest dynamics,实质上就是我们研究的点击流,或者叫注意力流。不过大家关注的点不一样。文章中的作者都认识,是来老师带的团队。
文章基本信息:
题目:Emergence of scaling in human-interest dynamics
作者:Zhi-Dan Zhao1,2, Zimo Yang1, Zike Zhang1,3, Tao Zhou1, Zi-Gang Huang2,4 & Ying-Cheng Lai2
引用信息:Scientific Reports 3, Article number: 3472 (2013) doi:10.1038/srep03472
文章亮点:
1、立意新颖。虽然研究的本质是点击流数据,但是作者们把它称为兴趣动力学(Interest dynamics),并且声称是第一次研究人们兴趣的转移,这一下就拉高了整个文章的立意档次;
2、模型做的很精致、简单,最关键的是是可以解析,并与实证符合的很好。
内容:
这篇文章研究的是用户在网上流览不同的商品、不同的APP构成的点击流跳转行为。这些跳转构成了一个点击流网络如下图所示:
其中每一个节点表示一个网页(商品),连边表示跳转。a、b、c三个网络分别是一个示例网络、一个是淘宝部分商品网络,另一个是豆瓣网页的网络。
然后在实证上发现了三个幂律,分别是在某一个兴趣商品上停留的时间长度的幂律,访问一个商品之后又经过n久再访问这个商品,这中间有一个时间间隔,这个时间间隔也遵从幂律分布,最后,一个人在不同的产品之间跳转,那么每个产品被访问的次数(也就是点击数)也遵从幂律分布。然后,作者们提出了一个非马尔科夫的随机游走模型,复现出了观察到的所有现象。
下面,我重点讲一下这个模型,它基本可以表达成下图所示:
假设一个用户上网之后,他可能采取三种可能动作:1、访问已经访问过的商品;2、探索访问新的商品。我们假设,他访问新商品的概率是\rho n ^{-\lambda},这里面n是这个用户已经访问过的所有的独立商品个数;rho和lambda都是给定的参数。他不去访问新的商品,而是在已经访问过的商品中随机游走的概率是1-\rho n ^{-\lambda}。并且在这些已经访问过的商品中,他从一个商品跳转到另一个商品的概率是从点击流网络数据中获得的,即 n_{ij}/\sum_j{n_{ij}},就是按照出边归一化的概率转移矩阵。
这样的话,随着用户探索的商品越来越多,它就会以越来越小的概率去探索新的商品,并在已有的这些商品中依照概率跳转。就是这样一个简单的模型就可以复现出来文章开始提到的三个幂律分布。
值得称赞的是,这个模型可以解析,而且与宋朝明的人类在真实空间中的移动跳转模型神似。说明,人类在虚拟空间的移动行为与真实空间的移动规律具有相似的特性。