计算士的头脑风暴
注册日期:
2009-2-15
上次登录:
2014-11-22 18:46:44
邮件地址:
wlf850927@gmail.com
兴趣领域:
数学,物理,社会学,系统科学
  Eadem Mutata Resurgo!
1
2011-12-3 17:48:20  热力学第二定律  生态学  互联网 

计算士 Dec 03, 2011

最近看了以下paper,简单地把亮点记一记

首先是Huberman的3篇paper
[1] B. A. Huberman, "Social Attention in the Age of the Web", Working together or apart: Promoting the next generation of digital scholarship, p. 62, 2009.


亮点:这篇文章比较鲜明地提出了social attention这个概念在互联网研究上的应用。给我启发比较大的是(在文章中没有明确提到,但暗示了),新闻的传播扩散其实就是集体注意力的集中。


局限:huberman提倡我们研究the allocation of attention,这是很好的提法。但这篇文章里,social attention更多地是作为一种口号而不是有实际意义的指导思想出现的。Huberman举了他和Adamic,Leskovek合作研究亚马逊网站的例子,说不同类型的书对应着不同结构的推荐网络,但其实这个具体的研究没有social attention这个指导思想也可以做。另外,Huberman还有一个不靠谱的说明,说互联网使得基于用户贡献的维基式协作成为可能,从而避免了"公共地的悲剧",是因为用户可以从贡献得到的attention中(在心理上)受益,从而把public goods当做private goods来经营。这个解释无法令人信服,offline的贡献同样可以带来attention,为什么就不能避免"公共地的悲剧"呢?

[2] F. Wu, D. M. Wilkinson, and B. A. Huberman, "Feedback loops of attention in peer production", in Computational Science and Engineering, 2009. CSE'09. International Conference on, 2009, vol. 4, pp. 409-415.


亮点:这篇文章写得非常有趣,开始深入研究"注意力"这个东西了。作者试图在文章中论证,其他用户的注意力可以促进用户的贡献。首先,作者批评了以往基于survey的研究,这些研究指出用户参与协作是基于愉悦感、理想主义、归属感等因素激励,同时也为了增进自己的社会地位等。huberman指出,愉悦感、理想主义、归属感或许能部分地解释用户参与协作的动机,但这些因素很难长期持续,而社会地位这种原因不能解释用户参与匿名或半匿名(像维基这种,虽然可以查到editor,但没有多少读者真的会去查看)的协作。在这个背景下,huberman研究了digg和youtube两个在线社区,发现(1)用户受到的注意减少时倾向降低贡献;(2)用户得到的注意力随着贡献的增加而增加;(3)用户的贡献与粉丝之间正相关。huberman给出了一个动力学模型,描述了用户死亡(停止贡献)的概率与贡献量的关系,其中模型的核心在于一个"attention reforcement"的机制:用户获得的注意力与他的贡献有关,而这个贡献又反过来使他得到更多注意力。最后这个动力学模型可以解出来一个长尾的用户贡献量分布,与实证数据一致。


局限:但美中不足的是这里的模型只是定性的一致而不是定量的一致。这个模型更多是启发示的,huberman并没有真的用来拟合数据。究竟模型存在什么问题,还需要更细致的研究。

[3] F. Wu and B. A. Huberman, "Novelty and collective attention", Proceedings of the National Academy of Sciences, vol. 104, no. 45, p. 17599, 2007.
亮点:这篇文章也相当有意思。Huberman研究了digg上新闻的增长与衰退,然后给出一个动力学模型来描述新闻获得的注意力随时间的变化。模型里有两个核心的要素,一个是新闻popularity的自加速,一个是新闻novelty的消失。前者有点类似Barabasi的"优先链接"模型,即已有点击较多的新闻容易得到更多点击;后者则是一个随机的衰退效应,即新闻获得的点击随着时间的增长随机衰退。通过将这两种机制结合起来,Huberman可以预测在digg上新闻的半衰期大约是69分钟,也就是差不多一个小时。

[4] F. Heylighen and J. Bollen, "The World-Wide Web as a Super-Brain: from metaphor to model", in Cybernetics and Systems' 96. R. Trappl (Ed.). Austrian Society For Cybernetics, 1996.
亮点:这篇文章是作者在十多年前写的,在互联网领域十多年应该算得上是老文章了。文章的大意是将人类社会看做一个有机体,那么通讯系统就相当于神经网路。又因为互联网正在整合几乎所有的通讯系统,因此可以把互联网看做是人类有机体的一个超级大脑。接下来作者主要讲互联网的各种功能与大脑的功能比较,比如互联网如何实现记忆、学习、思考(knowledge discovery)等。有一些有趣的点,比如可以把互联网看做是一个像脚本程序那样的东西,一个脚本程序可以整合各种不同的语言,而互联网就整合了所有用户的大脑,把大量人脑的数据和计算能力连接起来。另外,互联网的智能不是全局性的,而是通过处理无数个局部问题来实现全局最优。有点像排队算法,每次都比较两个数值的大小,就能以极快的方式将一个数列sort。这里面还讲到了和web3.0相关的思路,即让一个浏览器/软件这么一个agent去替用户发现用户要的信息,节省用户的信息搜索成本。还有一个很有趣的点,脑神经里有一条基本Hebb's rule,即一起激发次数较多的神经元之间会形成较强的神经联系。这点在互联网上也是一致的。互联网也是依靠在相关文件之间形成较强的联系来进化出智能。而这种联系的权重,恰恰就是用户的点击流。

[5] E. Smith and D. K. Foley, "Is utility theory so different from thermodynamics", SFI preprint, 2002.

亮点:这篇文章只看了大概,没有细看。以后有机会也许还会重读。Smith是生塔菲的External professor,把物理学里很多有趣的理论应用到社会系统和生物系统里面来。这个文章就是一个尝试。文章试图提出一个卡诺热机模型来解释经济运行的基本规律。指出,现代经济学中Walras建立的平衡理论其实与热力学存在着对应关系,例如效用(utility)其实对应着吉布斯(Gibbs potential),温度对应着价格。因此,对热力学中基于卡诺热机的可逆变换(reversible transformation)的研究也许可以为经济学提供一些借鉴。
局限:这篇文章的思路是很不错的,但因为是和经济学家合作,Smith又是一个特别认真的人,因此使用了大量的经济学术语和公式,希望能说服经济学家物理学的框架是值得借鉴的,这样,反而造成像我这样一般读者的困扰。

[6] H. T. Odum, "Self-organization, transformity, and information", Science, vol. 242, no. 4882, p. 1132, 1988.

亮点:与经济学家相比,我总是更愿意看生物学家的文章。这篇突发奇想的文章尤其值得推荐。在德国医生迈尔(Meyer)1840年。讨论能量转化的机制并算出热功当量之前,没有人想过太阳的热、植物的生长、动物的繁殖之间有什么关系。

这篇文章继承了这种对能量守恒定律和能量转移过程的一般讨论的伟大视角。首先文章定义了一个东西叫transformity。这个东西测量的是一个比率,比如一单位A形式的能量可以转化成多少单位B形式的能量。表面上看这是一个伪问题,因为根据能力守恒定律,一焦耳热能和一焦耳机械能在quantity上没有什么区别。但其实它背后涉及的是一个非常深刻的问题:能量的品质(quanlity)。化学能可以轻易转成机械能(柴油机),机械能可以轻易转成热能(摩擦取暖),但反过来却不那么容易。文章把整个自然界(包括人类社会)看做一个大系统,所有能能量基本都从太阳而来,在每一个食物链层级(tropical level)上,低品质的能量被改造成高品质的能力储存起来,但改造的代价是能量的quantity以scale的方式迅速减少。例如我们把基于太阳能的transformity定义为一个标准量,那么地球接受的能量大概是6E9(6后面9个0),到了植物这个层级只剩下6E7,到了食草动物可能是6E6(以一种令人敬佩的科学精神,他真的培养了一个小规模的生态系统来测量这些量级)。 以此类推,我们可以得到一个表格,在表格里每上升一层,一单位的能都需要更多太阳能来实现。最有趣的是,这个表格里包括了人类的商品和服务,甚至是知识(图书)。因为知识和商品可以表达为人类劳动力,而人类劳动力归根结底也是来源于太阳能。因此,这篇文章实际上已经实证地考察了能量和信息之间的转化关系。从理论上说,这也是可以理解的,低品质的能和高品质的能之间的区别,就是前者信息少(熵多),后者信息多。从这个意义上理解,自然生态系统可以看做一个超级卡诺热机,违背了卡诺热机能量不变熵恒增加的工作原理。

另外,这篇文章还以及其有创意的方式讨论了两个问题,一个是"强涌现"的问题。涌现可以分为弱涌现和强涌现,前者是一堆小的agent形成某种pattern,后者是形成了的pattern可以反过来控制agent。生物体和国家都可以看做是强涌现,因为它们会牺牲部分的利益来保证全局利益。作者指出,强涌现的实现过程是高品质的能力吸收低品质能量在转化过程中的冲突(pulse)。具体地说,低食物链层级上的agent的生灭不容易影响到系统的稳定,高食物链层级上agent的生灭则容易对系统造成影响。这是很好理解的比如一个森林里少了只兔子没啥了不起的,但要少了只老虎影响就大了;一个社会里少了一个流水线上的工人没什么,但国家领导被恐怖袭击就容易动乱(Barabasi在2000年的文章Error and attack tolerance of complex networks也提到过类似的问题,说攻击网络中的hub对幂律度分布的网络会造成毁灭性影响。但我觉得他的理解没有抓住事物更本质的地方,hub和一般node之间的区别,要从能量流动和食物链层级上去理解,而不能单纯地从拥有度的多少上去理解)。要是把强涌现归结成一句话,其实就是"信息控制能量"。这个洞见是很深刻的。

另外一个有趣的问题是,Odum说生物的复杂度与环境的能量相关。他做了一个计算机模拟,证明存在着自催化(autocatalytic)的生物只有在环境提供较多能量流的时候才比没有自催化能力的生物发展得更快。如果环境缺乏营养,其实没有自催化能力的生物更有竞争优势。这是很有趣的。所谓的自催化,其实就是指生物在摄入能量流后自身体积会增加,而体积的增加又使他有能力摄取更多能量流。这个词可以叫autocatalytic,也可以叫reinforcing或amplifying。是不是有点似曾相识?对了,huberman在讨论web 2.0时说过这个词(见本读书笔记条目[2])。由此,我有一个想法,现在大家都在论证web2.0网站由于利用了用户的注意力来生产信息(自催化),因此比web1.0网站有优势,因此崛起了。但是还存在这么一个问题:那为什么web2.0网站没有在10年前,互联网刚出现时就崛起呢?一些web2.0模式,比如BBS,出现的时间并不比门户网站这些web1.0模式更晚。我觉得Odum的生物学研究提供了一个很好的切入点,因为在互联网环境无法提供足够的用户注意力流的情况下,存在自催化机制的网站其实反而没有更简单的网站有竞争优势。

[7] X. Shuai, Y. Ding, J. Busemeyer, Y. Sun, S. Chen, and J. Tang, "Does Quantum Interference exist in Twitter?", Arxiv preprint arXiv:1107.0681, 2011.


亮点:这篇文章是很有新意的,但不明白为何是由计算机系和信息系的人合作而成,而没有物理系的人参与。作者认为根据古典的信息理论,假设信息(tweets)由A传递到B再传递到C,当B作为信息渠道的数量增多时,C应该有更多概率得到A的信息,但作者考察了twitter的大规模数据,发现并不总是如此。因此作者提出,原因是渠道之间相互影响导致信息反而减少。比如C老师问B1和B2两个同学关于A的情况,说A做没做作业,B1说做了,B2说没做。如果只有B1就是提供了一比特信息,但有了B1和B2反而信息连一比特都没有了。最后,作者建议用量子概率来为这个过程建模,即渠道之间存在量子干涉效应,有时渠道增多会增加传递的信息,有时反而减少。
局限:这篇文章的局限简单说起来有二,一是渠道之间的影响是否确实能用量子数学描述,以及为什么可以这么做,没有说清楚,这里的量子效应更多是启发式的模型;另外一个是作者把C转发A的tweets的概率定义为从A传递到C的信息量,这个定义是否严密值得商榷。

[8] E. D. Schneider and J. J. Kay, "Life as a manifestation of the second law of thermodynamics* 1", Mathematical and computer modelling, vol. 19, no. 6-8, pp. 25-48, 1994.

亮点:这篇文章蛮长的,但是如前所言,基于对生物学家思考方式的欣赏,我还是基本比较完整地读下来了。文章的主要思想是生命(秩序)不是热二定律的背离,而是符合热二定律的。以往的研究在这个问题上多考虑生命是如何在热二预测的熵增的背景下演化出并维持住一个有序结构的。但作者提出一种新的思维,首先,熵增并不是对热二定律的最本质理解,基于Kestin等人的证明,热二更好的表达是,当系统远离平衡态时,它会通过耗散能量去抵抗这种偏离,希望重返平衡态,而越是远离平衡态的系统,就越能耗散越多能量,它向着平衡态吸引子的运动能力就越强,也越难被更远地拉离平衡态;其次,生命的秩序不是自我演化出来的,而是一个被动的结构,当系统的能量超过了随机结构能耗散的阈值后,就出现了秩序,秩序的存在是为了耗散能量以重归平衡态。根据这种猜想,作者提出了很多实证的预测,例如复杂的结构比简单的结构可以更快地耗散能量,一个生态系统,当外界能量非常多时,会形成复杂结构,例如食物链层级增加,能量流的平均长度增加,而当能量减少,食物链层级、流长度也随之减少。作者用了两个实证数据来证明这些预测,一个是对一个河流的生态系统在被沿岸工厂污染前后的对比观察,一个是卫星遥感监测的地面热辐射数据与当地物种多样性的关联。同样,这篇文章里提到的范式也可以用来理解digital ecosystem,即互联网生态系统。是不是随着用户注意力流的增加,互联网的层级和注意流平均长度(用户浏览succession的平均值)都在增加?

[9] J. Luo and C. L. Magee, "Detecting evolving patterns of self-organizing networks by flow hierarchy measurement", Complexity, 2009.

亮点:这篇文章介绍了一种算法,可以对任意一个网络计算一个0-1之间的H值,这个H可以叫Hierarchical degree,即层级度。这个H值越高,代表网络形成了很多层级(有趣吧?正好可以应用来检测本文项目[8]中提出的预测);如果H值很低,说明网络里存在大量的loops。


局限:我根据作者的介绍用mathematica实现了这个算法,但发现这个算法的复杂性非常高,应该是O(n2)。因为算法里有这么一步,要把一个网络里所有的节点变成链接,把所有的链接变成节点,这样,一个仅有100个节点,1000条链接的网络(考虑有向边,该网络密度0.1,并不是特别高)就形成了一个1000x1000的矩阵,而算法又用到了矩阵的幂运算,因此我的笔记本一下子内存就被用完了。我怀疑作者在具体计算的时候使用了一些其他技巧,但文中并没有介绍。

这一两个月,除了阅读以上的文献以外,还关注了刘未鹏的博客(http://mindhacks.cn/),看到很多有趣的文章,如下几篇详细考察了一下。
数学之美番外篇:进化论中的概率论
http://mindhacks.cn/2007/12/02/probability-theory-in-evolution/
数学之美番外篇:平凡而又神奇的贝叶斯方法
http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/
数学之美番外篇:快排为什么那样快
http://mindhacks.cn/2008/06/13/why-is-quicksort-so-quick/
康托尔、哥德尔、图灵--永恒的金色对角线
http://mindhacks.cn/2006/10/15/cantor-godel-turing-an-eternal-golden-diagonal/


亮点:这几篇都是中文,作者也写得通俗易懂,我就不再浪费笔墨重复了。值得一提的是,"数学之美番外篇:进化论中的概率论"中提到一个非常有趣的点,最大化贝叶斯概率其实与信息论的最小描述长度原理有关。


作者说,贝叶斯公式可以表达为:P(h|D)=P(h)*P(D|h),其中P代表概率,h是假设,D是观察到的数据。如果看到一个数据(现象、事件),要推导出最可能的假设,可以从这个公式出发,考察各个假设h1,h2,h3...的可能性,把这些可能性乘以给定了假设后出现数据D1,D3,D3...的可能性,其中最大的那个P(hi)*P(D| hi)对应的hi就是我们要的结果,所以贝叶斯推断其实就是搜索Max(P(hi|Di))= Max(P(hi)*P(D| hi))。


如果我们对本公式两边取2为底的对数,得到Max( lnP(h|D) ) = Max( ln(P(h)) + ln( P(D|h)) )。将h看做是产生数据D的算法,ln(P(h)) +ln( P(D|h))其实就是模型h的编码长度加上该模型生产的数据D的编码长度。但这里我没有理解的是,我们不是要找Max吗?那应该是最大描述长度,怎么变成了最小描述长度呢?作者并没有讲明白。

 

2011-12-3 21:37:55
   对6和8最感兴趣

>计算士在与互联网生态学相关的读书笔记中写道:
---------------------------

计算士 Dec 03, 2011

最近看了以下paper,简单地把亮点记一记

首先是Huberm......

 

2011-12-3 23:01:44
   [6]这篇文章我很早就放到集智上来了:http://www.swarmagents.cn/thesis/detail.asp?id=192

>飞马过河在回复:与互联网生态学相关的读书笔记中写道:
---------------------------
对6和8最感兴趣

>计算士在与互联网生态学相关的读书笔记中写道:
--------------------......

 

2011-12-3 23:04:33
  

很好的文章,回答一下你的最后的问题,因为信息量定义为-logp(或者说描述长度),而你的公式里面的都是正的,所以maxlogp(x)就是最小化描述长度。

关于流动的主题,我觉得很有必要把那个幂律指数的问题搞清楚,并开发出一大类针对流网络的算法,之后就是要向熵最大化或者熵产生的方向进军了。

>计算士在与互联网生态学相关的读书笔记中写道:
---------------------------

计算士 Dec 03, 2011

最近看了以下paper,简单地把亮点记一记

首先是Huberm......

 

2011-12-4 14:40:36
  

原来是这样。

你说的流动和幂律指数针对的是哪篇文献吗?

>jake在回复:与互联网生态学相关的读书笔记中写道:
---------------------------

很好的文章,回答一下你的最后的问题,因为信息量定义为-logp(或者说描述长度),而你的公式里面的都是正的,所以maxlogp(x)就是最小化描述长度。

关于流动的主题,我觉得......

 

2011-12-5 1:06:26
   这类文章很多时候只是一些很粗糙的猜测,逻辑是跳跃的,也没有充分的证据

>jake在回复:与互联网生态学相关的读书笔记中写道:
---------------------------
[6]这篇文章我很早就放到集智上来了:http://www.swarmagents.cn/thesis/detail.......

 

2011-12-5 8:58:02
   就是指Ai,Ci之间的关系

>计算士在回复:与互联网生态学相关的读书笔记中写道:
---------------------------

原来是这样。

你说的流动和幂律指数针对的是哪篇文献吗?

>jake在回复:与互联网......

 

2011-12-5 13:58:48
  

我读过H. T. Odum的好几篇文章, 还有他的书《系统生态学》。  觉得整体来说,他提出了一套复杂系统的演化观, 即在外界能量流的推动下,系统自组织成等级系统, 这种等级系统能够加大整体的功率,这就是系统演化的方向。

例如,在生态系统中,可假设原先只有草,现在则产生了草食动物, 而草食动物吃草并排泄粪便、以及帮助传粉等行为客观上使得整体系统利用太阳能的效率提高了。  在经济系统中,原先只有分散各地自给自足的农民家庭,现在则分化出一个商人阶层来,通过贸易沟通各地,他们不仅养活自己,而且也使包括农民在内的整体系统具有了更高的生产效率。 

Odum认为高层次的子系统通过反馈而提高了整体的效率,从而可看作它对低层次子系统具有了“控制“能力。 另一方面,由于子系统都表现为有形的物质,含有能量。 于是高层次子系统的能量的”质量“ 就高于低层次子系统的能量的”质量“。  而要想生成一定量的高层次子系统的能量, 需要消耗很大量的低层次能量, 生态系统中食物链等级的1/10 定律就表现了这一点, 即一级消费者(食草动物)的生物量是生产者(草)的生物量的1/10, 而二级消费者的生物量则是一级消费者的1/10。这就是 transformity 的含义,同样是能量,但是在整体系统中的功能和地位不同,其中一些体现出更高的”质量“。 另外由于总体能量有限,所以等级不可能一直升高,生态系统中一般只是到三级消费者就已经是顶级了。

另外,高层次子系统的能量的” 质量“ 只有在具有低层次的情况下才能体现出来,  不然是没有用的,只能作为低质量的能源来用。  就像一群将军们,当他们聚集在某地开会,招到突袭,可他们手下的士兵没在身边, 于是就只好自己操起家伙来迎敌了。

觉着Odum提出了一套重要的思想,需要挖掘,整体和提炼。 

可以从这里下载一些他的主要文章: http://iask.sina.com.cn/u/1052227410/ish?folderid=435797

 

 

>计算士在与互联网生态学相关的读书笔记中写道:
---------------------------

计算士 Dec 03, 2011

最近看了以下paper,简单地把亮点记一记

首先是Huberm......

 

2011-12-7 15:58:50
  

说得很有道理。

链接好像打不开啊?

>xsplendor在回复:与互联网生态学相关的读书笔记中写道:
---------------------------

我读过H. T. Odum的好几篇文章, 还有他的书《系统生态学》。  觉得整体来说,他提出了一套复杂系统的演化观, 即在外界能量流的推动下,系统自组织成等级系统, 这种等级系......

 

2011-12-8 11:56:46
  

不会阿,我这能打开的阿,难道在香港打不开这个?



>计算士在回复:与互联网生态学相关的读书笔记中写道:
---------------------------

说得很有道理。

链接好像打不开啊?

>xsplendor在回复:与互联网生态学相关的读......

 

2011-12-9 23:55:24
   这次可以了,谢谢分享!


>xsplendor在回复:与互联网生态学相关的读书笔记中写道:
---------------------------

不会阿,我这能打开的阿,难道在香港打不开这个?



>计算士在回复:与互联网生态学相关的读书笔......

 

登录后才可以评论,马上登录
2012-2022 www.swarma.org, all rights reserved