网络智酷 第二十六期
地点:泛利大厦10层1号会议室
科学的极致——漫谈人工智能
14:00-15:00 漫谈集智与人工智能(张江)
15:00-16:00 深度学习(肖达)
16:00-17:00 沙漏时间
参加人员:
段永朝(和讯)李犁(和讯)何万青(英特尔),梁春晓(阿里巴巴),陈晓夏(中央新影),武卫东(图灵总经理),张霞,许晴,小木球
段永朝主持(场外有直播)
段:国内的社区见的不多,但集智非常喜欢,味道和魅力,值得亲近。2003年开始至今。每次印象都非常深刻。
张江讲讲集智的故事
感谢段老师的开场白。今天主要起因是这本书的广告,因此从书谈起。书的作者署名即集智俱乐部。先做个介绍,然后讲一点本书的内容。我的专业是系统科学复杂性,不是人工智能。读书期间对人工智能非常痴迷,也有一些心得体会。今天首先讲计算理论,第二个讲我个人感兴趣的自指怪圈相关,可能会有不专业的地方,时间够会再讲一些互联网和人机交互。
介绍集智。2003年,开始时是一个网站,开始是以个人网站来定位,由于当时发现互联网上没有复杂性科学相关的内容。真正诞生是2007-2008年,当时的想法是希望能做成,国际上科学界的大牛背后都有一个很好的小组织,比如爱因斯坦的奥林匹亚俱乐部或者等等其他俱乐部。我感觉所处的学术环境很不好,没有一个能说出心里话的环境,故和孙涛等人决定自己办一个俱乐部。(ppt:自指蛇)集智发展的时间轴。2003……2014年出来彩云天气,待会肖达来介绍。我们做读书会,不乏有成员可以做成产业。今年开始有了突飞猛进,媒体报道,8月份南京大学第一届年会,来了相当多的人,很吃惊,还有这本书的出版。我们干什么的?(ppt:标签云)愿景是没有围墙的研究所:不问出身,只追求科学真理。主题很多样,开始局限在复杂性科学,之后根据成员主题更加丰富。(ppt:结构)以读书会为主,下面展示了一些活动和读书会,以及彩云APP。这几年鼓励创新的沃土。我们也在考虑注册一个正式的NPO。
下面进入主题。起因,集智很多活动,人工智能很多。图灵帮我们梳理了活动,且总结出来。我今天分享其中三个。第一章是人工智能简史,起源于赵珉,我将其总结写了下来。最早希尔伯特,图灵等,直到1956年正式提出AI。之后有不同的理念。90年代进入分裂期。现在提到时,AI指的是很多不同的东西。同时有些人也提出不同的思路。例如基于贝叶斯的,另一个是算法复杂性与通用人工智能,也是延续图灵的计算数学,来统一人工智能,而不是走工程的路径。2007年左右人工智能突然火了,重要原因是神经网络的突破和深度学习。我认为现代的人工智能,起源于理论思辨,进入工程的东西。我现在讲还是回到理论的角度。有一些重要的问题与大家分享。
图灵机与计算理论。最早:希尔伯特第十问题:可否通过有限次的计算,判定方程可解?为了回答这个问题,从数学角度刻画,兵分N路,数理逻辑的刻画。但是这些刻画都很抽象,很难从直观看出这些形式系统和计算机有什么关系。直到1932提出图灵机模型,有了计算的味道,受到大家的欢迎。前阵演《模拟人生》,图灵本人一生令人崇拜和感动,包括一系列重要的理论问题,包括AI……最后死于咬了一口的氰化物苹果,传说苹果公司logo与之有关。我们的标志也是一个苹果,不过那个是牛顿的苹果。图灵机模型可以简单刻画计算的过程,纸带,程序,存储状态。每一时刻根据当前状态和规则表进行演化。(视频:图灵机的机械装置)。图灵机为什么可以做运算呢?运算过程中可以做一个变换,Wolfram做的方格图灵机非常简洁,运算中完成了输入输出的映射。图灵机里一个重要的概念就是相互模拟。我们用JAVA实现也可以用C语言实现,其1-1映射即为模拟。在模拟概念下有个重要的原理,即通用图灵机的概念。严格定义即有一台图灵机,不改变状态,即可模拟其他任意图灵机的状态。算盘不是通用图灵机,而是计算器。通用图灵机是整个图灵机王国里功能最强大的,图灵给出了通用图灵机的极限。比如停机问题。能否有一个判断程序?图灵证明了这是不可能的。这是重要的理论极限。这个和哥德尔定理以及对角线法是一脉相承的。图灵机不可解的,则所有计算机不可解。接下来分享最核心的内容——自指。
自指是个很有潜力去挖掘的金蛋。“怪圈”,有本重要的书GEB。也是这本书吸引我把科学做下去。一般计算机科学和数理逻辑,讲数学公理体系,是有理论极限的。故哥德尔构建了自指问题,引出了证明。罗素悖论揭示集合论中的不可能性问题。图灵停机问题也是此怪圈。这样看来怪圈都是一些不好的东西,不可能的东西。但是我认为很少有相关文献提到,实际怪圈完全不是邪恶的东西,它有好的一面,可能跟生命的创生,生命的自复制问题深刻地联系在一起。GEB没有展开讲。后面重点分享这套东西里和生命创造性及生命复杂性相关的内容。
简要介绍一下怪圈。首先要牵涉到层次的概念。层次在日常生活中司空见惯。沿楼梯,高低层次。尺度大小,如谷歌地图,局部套在全景里,大小层次。还有所谓的虚拟层次,例如盗梦空间,世界里面的世界,梦里的梦,语言里的套话引用。怪圈既是层次之间分明结构的,由于某种作用下层次发生了混淆,即发生所谓的怪圈。比如埃舍尔的名画。《僧侣》(攀高和下行)。整体看发现是一个闭合的环,又回来了。埃舍尔利用了视错觉的原理将两个层次故意连接,于是出现了奇怪的圈。这就是所谓的高低层次怪圈。复杂系统里面有很多很多怪圈,例如分形,很多年以后我发现原来分形是个怪圈,通过自相似性,局部和整体是完全同样的,一模一样的意思就是层次混淆在一起了。(何:程序里时明确的,不混淆的。感性的,比喻的甚至文艺的都在上面投射,但程序上只是简单规则的再现,是概念上硬叫的怪圈。其实是视觉的出错。计算机里的嵌套循环。并不怪。张:从观测者的角度看而非程序的角度看就怪了,让观测者混淆自己所在的层次)。更有意思的怪圈是虚拟层次的嵌套,如《画廊》,例如山上有个和尚在念经的童谣,即一个虚拟层次的混淆。因为画是现实社会的虚拟层,埃舍尔将其扭曲,将画中与真实世界偶联。(段:怎么解释窗口的人,剧中人和局外人。李犁:超现实主义绘画基本都是这个风格,跟数学有关系吗?张江:埃舍尔是个艺术家里的怪人,表达的东西不一样。段:那段时间的荷兰画风,呈献一种不可能。中间那个光斑,就像一个奇点,也是需要解释的,是一种渴望而又不可能的东西。张:一会儿放一个视频)。虚拟层次的混淆即发生了自指涉。语言上的嵌套成为自指涉。即是一种悖论,既不对也不错。亦此亦彼。把这句话放到句子里面去,还有一类自指,GEB反复提,是一种间接自指。最有意思的,“放在引文后面得到假句子”放在引文后面得到假句子。这种间接自指被称为蒯恩。相当于这句话是错的。(何:放到程序里,这些语法分析不会遇到任何问题。人才有问题。为什么会研究这种东西?)。最先发现这个的是蒯恩。重要的一点,哥德尔构造自指命题时,无自然语言,故用数学符号。其实构造了一个算术蒯恩,从而完成了定理的证明。自指里还有很多“无害”的自指,例如构成了一种自描述的语句。很多时候是无害的,也有很多时候是非常有意义的。为了表达生命的起源,各学科都在研究,有一派的观点认为,生命的起源就像埃舍尔的《画手》。没有东西把它造出来,而是自己把自己造出来的。俩人Autopoiesis理论,智利两名生物学家1970年提出自创生理论。即表达埃舍尔的话。化学网络满足自生产性。化学分子满足闭合性,还有一个条件是要求构成闭合的边界。满足此两条,则可以把这一团东西称为一个生命。“广义生命”理论。从这个角度讲,从生产-闭合这里是个怪圈,但这个不够严格。更严格的是冯诺依曼搞的生命的自复制。能不能造出一台机器,可以不停地繁衍自身。大家熟知他多由于发明计算机和博弈论,很少有人提他晚年一直在做自复制自动机理论。冯的书,集智俱乐部翻译了前5章。首先要理解到自复制的不可能性,基本上不要求你依靠外界,只能通过编译器在环境下执行。为什么不可能呢?在复制的过程中必须对整体有一个描述,这时会遇到一个矛盾,因为无法借助外界,故描述的大表必须是自身的一部分。那么这张大表就会出现一个无穷嵌套。表面是不可能的,实际是可能的。需要借用一个技巧,即蒯恩。用一个最简单的例子,如一个自打印的程序。根据冯,蒯恩技术包括及部分,自复制程序都有一个机器,一段代码(字符串)。机器是核心,分为三大部分,拷贝器,构造器,控制器。控制器不重要。 你喂给它任意数据,它都能拷贝再造自己。现在喂进去的是这个机器的自描述,不包含图纸自己,只包含对机器的描述,然后系统即可创造自己。使得看起来不可能的任务变得可能。早在1938年Kleene提出递归定理,表明自打印。冯诺依曼花了相当大的篇幅来构造自复制机器,现在人们已经能够实现了。(何:对冯的评价是公平的。在现在的设计里用简单的递归都可以走到,指令集可以实现。没有算子对应的指令也做不下来。人们可能会忽视后面的贡献是因为之前是可实现的。)我再读前五章,发现他并不是为了重现生命,他观察 ,发现很多系统,两大类,人造的系统虽然可以很复杂,但其复杂性没有超过一个阈值,故会发生衰退,即热二律发挥作用。但是生命世界跟人造系统如此不同?因为可以进化,更加复杂。因为这里有一个复杂度的阈值,超过这一阈值向上走,否则向下走。他就是想回答这个阈值是什么?即是自复制。
对自复制程序的扰动。因为机器环境充满了噪声,可能发生在各个环节。噪声会对机器发生什么影响?发生在机器这部分,那么噪声干扰是其不工作;反之干扰发生在λ(拷贝器和构造器),还能构造出机器来,但不会再自繁衍了,即绝育。一旦干扰附着在整个数据段后面,则发现出现突变,机器多出来一部分,同时可以运作。自复制部分完整保留,新机器被赋予新的功能。达尔文的计划即是在这种热力学干扰下进行下去的。自复制实际是生命钻了概率论的漏洞,如果不出现自复制,则噪声使其衰退。一旦出现可自复制的核,则噪声使其可以进化。小概率事件由于自复制变成了大概率事件。
意识是否也有自指的内核呢?因为意识具有自我觉知性,即出现无穷嵌套的自指层。一个实验比喻。我们花了很长时间做这个实验,得到很多好看的图。在这样一个循环下出现很多有意思的结构。(初始条件是一个无穷的走廊,中间有一个亮点。把亮点放大后,看到了复杂的结构。何:设备局限性,是一个失焦的结构。你想象下如果边界清楚,会出现什么情况?张江:我们试了不同设备,发现还会出现复杂结构,边缘清晰得多。何:既是分形。张:这是一个有趣的隐喻。梁:用高精度做是否会出现更有意思的东西。什么情况会展开,什么情况会收敛,值得做下去。)更严格讲,意识是什么呢?“自省的程序”。意识更像是一个可以自我觉察自我反省的过程,由于有了蒯恩结构,完全可以把这个程序写出来。在自复制下加一个模拟器,用来模拟自己,之后会出现什么结果?现在正在做,但结果会出现什么?这个过程中可以出现很多问题。就像Wolfram自动机研究,可能会有生命的东西展现出来。
总结:核心观点,从生命和自我意识,至少是跟自指有关系。生命是否包含一个蒯恩。值得尝试的事是,可以通过计算机构造此一结构,证明一堆定理从未运行,我们可以做一些运行的事情。自指程序跑出来的动力学也会有许多新的东西出来。且很有可能找到一些特性,将其与现实的生命和智能做一个一一的映照。虽然上面这些东西很古老,但现在很少人做出来。我自己也很少有时间去做。现在跟大家分享。
段:憋不住的问题问,憋得住就下面:P
第二位
听他介绍后,特别能够感受没有围墙的研究所。学科的边界上出来的东西可能异常有趣,但很难做到穿行于不同的山头之间。何:所有受过科学训练的人,做这些都不难。但有意思的事和有意义的结果之间距离非常远。工业界,一直在用这些东西,但在学界仍然停在这里,因为不知道有意义的结果在哪里。工业界在做的时候遇到了边界,且有很明确的目的。很多人进来觉得很好玩,但就停在这里了。这个距离好大。看完书蛮兴奋的,SO WHAT?所以下一步,需要找到一个让大家愿意跟你做的东西。故需要落地。(段:这是个好的话题,可以展开讨论。)
肖达:深度学习,不想讲成科普,希望个人化一点。借机回顾一下这几年探索智能走过的弯路和自己的经验教训。对深度学习最基本的原理做一个介绍。我也是半路出家,2008年看到一本书,人工智能的未来。那时候博士快毕业,专业和人工智能一点关系没有。故2012年开始想具体做点东西。参与和主持了三次和脑与深度学习相关的读书会。当时想法是一个基于统计物理的通用的智能理论。在脑与深度学习的读书会中,转变为神经科学启发做深度学习的模型。14-15全是深度学习。主要按这三部分来讲。最开始关注AI并不是一般意义上的人工智能,而是生物智能如何实现的。简单讲神经科学的目标是来破译大脑计算机如何工作。现实计算机三种途径,一,拆了研究零部件(实验神经科学);二,跑起来看看程序的运行(心理学和认知科学);三,图灵机模型(无)。问题:智能体最小的内核是什么?图灵机即计算机的最小内核。智能大脑的最小内核是什么呢?我的看法是,要回答这个问题,应该关注所谓智能首先要关注物理世界是有序即有规律的,当时的猜想是:智能无论人工还是大脑,一定和现实世界的物理规律有某种同构,同构越高,智能越高。智能内核即自然界最基本的规律,那么什么是自然界最基本的规律呢?
简单介绍非平衡态的热力学模型。最后重要的规律即实现这种复杂模式的规律。怎么产生复杂模式呢?在物理里有一个非平衡态派,当系统有能量差的时候,系统就会想法耗散使系统回到均衡,但超过阈值时,为了更快耗散能量差,则会产生复杂结构,远离平衡态。最明显的过程即生命的行程。地球上的能量差是太阳辐射产生,复制的结构体能够很快消耗能量,使能量差不会很快扩大。智能可以完全类比,而将物质能量换为信息的能量。例如卡诺机,由信息自由能做功产生智能。我还做了一个量化的表述。但问题也是,SO WHAT?
所有问题都清楚的时候,似乎所有问题都没想清楚。(何:熵是一个物理量,会不会相反的?生命体反熵,把混乱变成低熵的。肖:生命不止造成有序,同时也在创造无序性。何:平衡态是否熵最大?最终还是热寂啊。)故13年以后思路转变到一个更具体的深度学习。06年开始有深度学习并开始关注,从神经科学启发的角度研究。黑盒子,输入原始数据,处理后产生一个理解或判断,即输出。深度学习对于黑盒的信息处理2个限定,1有多层非线性处理特性,2,结构不是事先规定的,而是不断学习涌现的。特征表示,比如识别摩托车,从像素角度,混杂在一起比较困难。抽取特征,比如是否有轮子,把手,则发现很容易把某一类别分开,即所谓的特征。传统机器学习做法,人工设计的特征提取,然后可训练分类器。特征表示即不同领域人们设置不同的特征,例如图像和语音信号的特征。这样有什么问题呢?并不是不合理,但可以想到人设计的特征具有局限性。比如预测股票,特征则不好去设计。第二特征很难涉及到多层。后来发现多层特征非常重要。故90年代后期特征成为瓶颈所在。为什么学特征?生物学的角度,1981年诺奖,视皮层分层级,有一个逐层迭代的过程。数学角度来说,什么是特征?非线性的变换。怎样构造一个好的高度非线性的函数?2法。1,简单做线性组合,2,复合函数概念,逐层嵌套。2即是深度学习的核心思想。最大的好处是表达能力更强,例如要表达车的概念,需要指数个模板。但如果用层次构造的方法,可以用少得多的单元来组合不同的车的样子出来。即模型的表示/拟合能力更强。从此两个角度即比较清楚。
统计物理的角度,大家普遍认识,似乎深度学习和大数据紧密联系。数据大就可以学习吗?实际上不是。目前深度学习的信号符合什么特征?自然图像和自然语言,有别于其他信号。符合参差结构,长程关联和幂律分布。暂且将其叫做临界态的数据,即深度学习有临界态的特征,否则深度学习和一般的方法没有本质差别。
至此,传统的结构换成若干层的网络,每一层都在提取特征,最后有一个输出。这样做并不新,80年代即提出了神经网络和算法,那时候有几个问题。1,有标签的数据两比较少,误差回传时衰减,训练不懂了。逐层陷入高度最凸问题,陷入局部求解。2006年由了重大突破,即逐层无监督训练的方式来克服刚才所说的问题。具体不细讲,看个例子。两步,一为预训练,一层不会衰减,训练后将其结果固定住,再逐层搭出多层网络架构,再进行有标签的数据进行有监督的细调,这样比浅层网络有更好的识别效果。
介绍两个典型例子。一个是图像识别。比赛的任务:100 0000个高分辨图像,1000个分类,机器去猜。12年利用卷积网路的方法获得突破性的成果。卷积网络是一种特殊的深度网络,根据图像的不变形,在局部的结果作一个平移,再做一次下采样,取最大或平均,两层堆叠即形成深度网络。之后一个学生做了13层网络参与了比赛,结果很惊人,有了1*%的提升。关键点:1,大量有标签的数据;2,图像数据增广方法*100倍;3,GPU上运行速度快*100倍;4,多个大隐层,更好的神经元等。2012年后很多进展,比如近期的“看图说话”,对图像给一个自然语言的描述。
深度学习里面另一类问题,与图片问题对应的是序列识别的问题,如语音,文本等序列信号。如人在玩游戏或汽车等,根据过去一段时间的历史状态形成记忆(内部表示)决定下一步动作。怎样处理?2013-2014,RNN受到关注。FNN-〉RNN,每层和前后及本层的其他成员有一个反馈链接,能将过去的状态进行记忆,变成一个有记忆的网络。如果把每一个时间步的网络在时间上展开,也是一个深度网络,可以训练它。训练中也有梯度消散的问题,隔了很长的时间间隔,之后记忆不断迭代后长程的时间关联很难去识别。后来提出LSTM,基本原理是此神经元多了两个gate,数据通过门才能存储,通过输出门才能输出给下一层,从而把记忆更持久地保持住。第一步把门打开,之后锁住,打开/锁住是有BP学出来的。LSTM怎么保持梯度信息?与传统神经网络比,更像计算机。有些步骤写出,有些步骤读入。有了这个东西后,RNN用在语音识别和自然语言处理中就有了很好的效果。例子:机器翻译。给一句话,法文翻译成英文,RNN有一个端到端的做法,先通过编码输入,隐层单元就有一个表示,里面存储了这句话的语义。再通过解码网络将目标语言突出。与以前的根本不同是,句子对句子的学习过程,不管句子的具体内容。完全是一个端到端的方案,跟传统方法比同样的效果。一个用了4层LSTM的网络,每一层的参数非常多,将学到的东西都存储到网络的权重中去。以上就是深度学习的两种网络,最主要的不同是,FNN把输入变成输出,但没有内部状态,故像一个函数。RNN是一个有状态的东西,类似于程序。人们证明RNN是图灵完全的。即可以模拟任何图灵机只要设置权重。故想去模拟人脑,则用RNN的方式。
下面一些对ImageNet的反思。哪些是最关键的呢?是(ppt)前两个因素。驱动一个复杂系统完成一个有序。突破为什么是现在?关键在于目前有了大量的有标记的训练数据。当我们收集到大连更高品质的训练数据时。(何,90年代我也做,毕业不了就做神经网络。说到底,由于互联计算设备CPU,GPU的发展。神经网路还是一个蠢的黑盒子。我们现在有了大量不同人的行为,具备显著不同特征的数据增加了,使得训练具有有意义的效果。最大未决问题,数据这么多,拿去用时会泛化。很多噪声数据。为什么现在深度神经网络火起来了?回答这一问题。)80年代训练神经网络的三个问题,有了更多的数据,有了更快的计算机,找到了更好的参数初始化的方法。因此导致10年开始深度学习火了起来。生态学的视角,深度学习这个物种两个特点,1,不挑食;2,胃口比较大。以前没有是因为食物供应不够,现在有了足够食物和更强的消化系统。
深度模型的成功仅仅是因为更深吗?个人理解有2点,1跟传统方法比是一个记忆换计算的过程,更像人脑的工作模式;2,过拟合?看我们怎么看待。如果把1000类样本都记住了,那么认为不是过拟合,因为已经能包括能看到的各种各样的东西。故过拟合不一定是坏事。
回到开始将的,跟物理世界的同步。CNN和RNN都有特殊的网络结构,其实表达了空间平移对称性这样一个基本规律。(何:是否仅适合2维或者3维图像的处理?肖:CNN是。)CNN只是把这一普适规律“硬编码”到网路结构里去。RNN是将时间平移对称性“硬编码”到网络结构中。世界普适的规律有很多,此两个并不最重要。比如层次结构和标度对称性在空间和时间上的普适规律是否有这样的对应。(何:硬编码是否像中医吃哪儿补哪儿?简单把物理弄到网络中,这个科学吗?我觉得这样更是不科学的。在我们不知道规律时,就是不科学。承认是有效果的,但脑子里如何的不一定对应。)除了对称性,更重要的是产生复杂性的规律,例如产生生命的规律。如物理学的非平衡态统计物理,耗散结构;还有计算机理论里的自指,自复制,数据混淆,这些有无对应到神经网络里去呢?完全没有。
展望不讲了。我用仿生的方式做了很多模型,我对这样一条路,从神经科学角度构造模型的看法是这样的,关键在于人们忽略了进化的作用。之所以人有学习能力,DNA里存储了很多进化得到的东西。进化相当于深度学习的预训练,人的后天学习相当于预调。因此如此不太能解决进化本质的问题。可是进化在记忆里预留的东西目前难以破译。上帝具有更长的时间尺度,更好的设备,可以用随机试错的方法来进化,最后生成的东西,我们试图在年的时间尺度内走到这条路我认为是不太行得通的。对神经科学本身的看法,一个学科的发展速度最重要的决定因素是其数据量的多少,神经科学现在数据量还是相对偏小,进展也相对偏慢。社会和细胞这两个复杂系统可能前者更显突破。神经网络和大脑可能前者更容易突破,基于同样理由。
深度学习解决具体例子介绍一下。第一个即彩云天气短时降雨预报。判断半小时会不会下雨。给定一个视频的前面多少帧,预测后面的。预测是脑皮层的核心功能,深度学习里做预测的并不多。两种方法:1,求解方程算;2,预报员看。后者更准。神经网络跟预报员更像。(何:全世界都是主要根据方程算的,预报员做判断。)预测模型也是一个视频的3维卷积模型。怎么样能预测更长呢?如果预测6分钟,预测1小时呢?数据量就更增长。我们利用了时空尺度无关性的原理。用类似的网络结构去学习。如果过去三帧符合某种模式,就激活此神经元。刚才的做法是纯粹的基于机器学习的做法。传统的降雨预报是基于光流外推法。(优缺点见ppt比较)最大缺点认为运动是恒定速度,不适于雨会变大变小。我们的做法是把光流外推法与神经网络学习法进行了结合,简单结合效果不好,多层,以及RNN+注意模型的方案,后两种方案将运动外推以比较合理的方式加入到网络结构里,比单纯学习得到了更好的效果。
经验总结,数据驱动的方式是可行的。但深度学习不是包治百病的万能药。实际问题中需要经验来调许多,才能有好的效果。
再一个例子:金融市场博弈。核心问题跟彩云一样是个预测的问题。未来是涨还是跌?两个派别,基本面分析(有效市场假设随机波动理论)和技术分析(波动具有内在固定模式)。统计检验:正态还是长尾?价格波动具有分形特征。现在基于技术分析的交易系统有人工和自动的两类。技术指标分析可能改进吗?是否有自动学习指标的可能性呢?把技术指标提取和决策部分整合成一个大的神经网络。我比较关注的还是短时的尺度。天级别受宏观因素比较大。但短线交易受市场本身规律影响比较大。还有要考虑交易过程的特殊性,做出的动作对市场有影响。强化学习,agent和环境之间的互动。(你如何排除坏点,假数据等?前面数据无法排除噪点?肖:80%是好的就可以)。深度强化学习,谷歌做的打游戏系统,和交易很相似。初步结果,秒级准确率可到70%。感兴趣的问题,随着时间增长,准确里没有明显下跌。说明有一个尺度无关性(何:往前加往后加怎么样?肖:取决于时间。李犁:几千万和几万亿结果完全不同。段:很多都是玩具模型。何:black shop?是经过时间验证的。实际这种学习是反科学的。段:更希望意义和价值的讨论而非具体的技术讨论)。
最后,深度学习到底往那个方向去?能在NTM上再进一步吗?张江讲,数据和代码是可以融合的,能否把神经网络作为数据给神经网络处理,会产生什么呢?用网络结构和权重作为输入,输出是网络的基因,作为编码网络;反之作为解码网络。有了这两个组件后,是否可以构造一个复制自身的神经网络?自复制的用途?可以从网路基因的层面做一些变化或者扰动,将其重构回去。成为另外一种学习方式。这种数据/代码混淆是否比自指和自复制更根本更普适?这种新的神经网络可以解决什么实际问题?
白硕:能否不要经过学习,直接翻译到RNN?
马老师:为什么要先有一个轮廓性的描述。
何:建议。几个观察。以前做过神经网络,也支持大规模的部署和优化。故提一点,万维刚有个万万没想到。最好的创新都是有边界限制的。可以看到一个很大的差距。你的那些想法能够推动你做事多久?不存在可执行的可能性。建议是一定要有哪怕是很小的具体的目标,有边界条件和目标。很多研究生都能去批判,找到自复制什么的,但能够实现什么呢?时间序列的预测不用神经网络,例如讯飞的云识别。李开复和张亚勤做了很多统计学,大数据的处理很多机遇统计。神经网络或者数据不够,或者数据过饱和。但这个并不实际解决问题。没有原理的东西放进去。唯一感兴趣的是局部存储。它可以使用的场合,对于图像的特点有针对性。我认为,这个研究并不是普世的。另一个有时会把思想的东西简单投射到科学上,但使用的并不是科学的方法。在这些之前物理的模拟是靠概率分布的使用,很多白噪声,找到正态分布,很像白噪声。垃圾进来垃圾出,拟合得好,没意义。用大量机器傻算对英特尔很好,但这是不科学的!只有两个真的新,1特征变得明显了,是一种算法上的提升;2社会网络发展比细胞好。分布式存储。但这俩都是启发性的想象,包括基因算法。(遗传算法?)这些都是没道理的,对于科学界来说,我们还是要做有道理的事。集智这么多热心科学和科普的人,同人于野(万维刚)的文章:最高明的智慧是有限制的。
段:我赞成万青。希望像集智这样的前沿学者如何和工业界对话。很多民间科学共同体只能做大众科普,或者自嗨和互嗨。我们有没有能力跟工业界对话,科学家变成发明家,比如爱迪生。这个社会现象后面是一个文化现象。可能是科学界和工业界共享一个信仰。牛顿之前是炼金术的信仰,文艺复兴早期大量工匠是被包养的。如英国皇家学会(包养俱乐部),呼吁工业产业资本界的内在焦虑,容易产生共同的行为模式。我理解万青提的是这样一个问题。
李犁:张江你提的贝叶斯,在你AI上有什么贡献呢?张:起源于贝叶斯,研究的是因果关系。叫贝叶斯网,概率图模型。以前传统是推理,后来就有了学习。贝叶斯网将其揉在一起。
万:概率计算在实现框架上在神经网络上。张:都有。贝叶斯后面有两个结论,对已知晓的东西概率是多少,不知晓的东西,不能根据已知的否定他。贝叶斯公式对科学界的影响两点。李淼推荐的《万万没想到》。
段:关于边界。Varela的提法,强调边界本身不存在,而是观察者来界定的。何:自组织里一点质疑,这是需要能量的,有外界能量进来就不是一个封闭系统。必须涉及到这样一点。能量是必须提到的,能量的耗散跟外部的关系是什么?为什么递归程序是极烂的?很有名的案例,一个俄罗斯程序,代码漂亮,效果不好。很多有没的和思想上好的东西没有人关心,是在没有边界的情况下极大耗散能量的。
张:没强调的。递归定理和普通程序的递归是不同的。自指必然存在在计算机里的。能量流约束,冯诺依曼的书一开始就强调物理系统有能量流和熵,另一方面有信息结构,真正有意义的就是将两点结合在一起。并不关心自复制做出来。何:指令层的实现和硬件架构,一条是优美的,另一条是……。现实世界上总是混杂的,而非有没的,自复制的东西。冯可以指导架构级的设计,这是意义所在。如果把此方式放大使用,就是很幼稚的中医的想法,无法实现。张:出发点不一样,冯并不关心如何实现,而将其做一科学问题。何:但是反过来GEB,作为成人的玩具,可以用到什么上去呢?
段:你的观点太实用主义了。我们除了探讨其是否有用的,也探讨它是不是善的?例如上帝不会浪费资源。这和是否玩得转是不直接关联的。
何:这本书写的人很爽,从科普上更通俗。