显然,机器的深度学习是一个热点研究方向,连Nature也开始触及这个分支了。这与其卓越的表现相关。如在计算机视觉领域,深度学习首先在手写识别领域表现出众。在物体识别(被誉为计算机视觉圣杯)的权威测试Imagenet Challenge中,深度学习遥遥领先于其他经典算法(16% VS 26%),吸引了无数眼球。而Matthew Zeiler深度学习算法在ICCV Imagenet Challnge 中,继续领先于其他算法。
近来在实际运用上,机器深度学习获得了很大的进展。特别在图形的机器识别方面,深度学习的识别模型展示了前所未有的酷派。斯坦福大学和多伦多大学网站已经向读者秀出了一些有趣的结果。多伦多大学网站上有一个Demo 应用,这个 Demo 可以把输入图像转化成文字描述(i.e. 可以识别图形),e.x.你上传一张喵星人玩球的图片,系统能用自然语言的形式输出:猫在玩球!也就是说,机器如人一样地识别了该图形。(斯坦福大学已在Github 里上传了他们的Demo源码)
上个月,Google 在其官方博文中也公布了类似的技术:让计算机“认识”图像,并用自然语言描述出来。(百度IDL的也很厉害,如其另一方向的猫语识别技术。在用技术模拟人脑思维方面,百度技术现在大约已经达到相当于2~3岁孩子的智力水平了。)实际上,微软,IBM、facebook这些巨头都在这方面投入了巨资。
这种识别需要一个复杂的学习过程。它不同于对单个物体的识别,当机器“专注”于识别具体的物体时,容易忽略物体的动作,以及物体和物体间的联系。而难以正确理解图像里的内容——也就是说,它们一般无法“认知”图像。
但深度学习(deep learning)突破了这一点,深度学习让计算机可以自我学习与进步。要实现用自然语言描述图像内容的意义,程序必须精确识别图像中所有重要的信息,包括物体相互之间的联系。只有在这种情况下程序才能具备一定的“认知”能力。(如图)
上图图片下方的文字是机器读出的图片信息
深度学习模仿了人脑的学习过程:人总是先学习简单的概念,再用这些概念去描述更抽象的内容。比如当我们看到某只喵星人在草坪里散步的情景,我们的大脑将一大波光子转化成一系列有意义的概念:视觉皮层会连续性的分层处理这一图像,利用每一层里的神经元把信息传导到后面更高一层,高层再把这些信息慢慢聚合成更好理解的特征。具体点说,视网膜神经元检测到视野里有一些反差(物体边缘或端点),会把这一信息传导给高层神经元,高层神经元再试图把所有接收到的这些边缘信息组合配对,然后再进行传导,配合上声音信息,顶层神经元最后就形成某个具体的概念:猫。
深度学习就是利用类似的人类视觉皮层分层架构——人工神经网络(ANN)。深度学习先构建多层感知器,通过组合低层特征形成更加抽象的高层来表示属性类别(或者是更高级的特征),以发现数据的分布式特征表示。简单点说,深度学习可以自己挖掘相关的特征训练自己,拥有自主学习的能力。
深度学习主张,如果ANN的隐层足够多,选择适当的连接函数和架构,并增加一个非监督学习的“pre training”网络组成,就会具有更强的表述能力,但常用的模型训练算法反向传播(back propagation)仍然对计算量有很高的要求。近年来,得益于计算机速度的提升、基于MapReduce的大规模集群技术的兴起、GPU的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才在实践中有了用武之地。
但对于大脑这个神秘的构造,我们其实了解的还是非常的少。深度学习也出现了这种情况:工程师对程序具体是怎么搞定训练特征的,其实也不太明白。很多情况下连程序员都不知道程序该如何学习理解某个概念,程序自己就搞定了。
-------这个才是本短文要强调的重点,深度学习的本质究竟是什么?
自然,我这里强烈推荐这个paper,是波士顿大学的物理学家Pankaj Mehta和美国西北大学的物理学家David Schwab合作的一篇论文,发表在arxiv 上,Submitted on 14 Oct 2014,还比较新的。
他们把深度学习和重整化联系了起来,神秘的深度学习“机能”实际上就可能是一种自然过程。复杂系统的变化,可以在多层次的数据交互中产生结构性数据布局,重整化仿佛是一种数据压缩模式,导致在上层输出貌似统计性的自然数据结果成为可能。这似乎提醒我们这种大脑的重要能力之一只不过是一种自然的物理过程而已,从信息学的角度来看,大脑认知(至少深度学习的这个重要部分)、重整化、数据压缩具有了某种共同的实在背景。(by the way: 马上把这种multiple layers of representation的思想用在web设计上,就能产生一种豁然开朗的感觉。)
论文地址:
地址:http://arxiv.org/abs/1410.3831。
标题:An exact mapping between the Variational Renormalization Group and Deep Learning
http://physics.bu.edu/~pankajm/