题目:the power of crowds - combining humans and machines can help tackle increasingly hard prolems
作者:Pietro Michelucci1 and Janis L. Dickinson
引用:Science 01 Jan 2016: Vol. 351, Issue 6268, pp. 32-33
亮点:
1、这是一篇介绍人类计算的综述性文章
2、这篇文章总结了几种适合不同问题的人类计算方法
3、文章总结了最新的众包、人类计算的案例
介绍:
首先,作者将众包、人类计算分成了三种模式,如下图介绍:
第一种是通常的众包模式,将一个大任务划分成一系列微任务,以至于这些微任务可以让每个人都能轻松求解,例如点击图片,或者简单的翻译工作等,然后再把它们合成起来。
第二种模式属于这种工作流式,每一个人都会在上一个人完成的任务基础上继续下一个工作,整个过程都是流水作业,串联排列。这种工作就像是传统的数学定理证明。
最后一种方法是构造了一个问题求解的生态系统,这些系统会提供一个在线的工作空间,然后将各种不同的想法、数据整合在一起,然后采取行动。这类生态系统方法适合解决一些灾害处理问题,包括应对全球气候变化以及地缘政治。
在通常的人类计算项目中,经常会出现少数人贡献了大部分力量,而大多数人仅仅贡献一点,因此,如何调动参与者的积极性,以及将高质量的人留住就成了一个非常重要的问题。
人类计算的出现使得人们看到它与传统计算系统都不同,因此我们要综合考虑机器的隐私以及人类的复杂的情感、决策等因素。这需要全新的方法论。
其次,大量人力的使用,使得我们必须关心与此至关重要的就业问题,以及应如何雇佣这些人等等。
有人认为超级计算机将拉近人类和机器的距离,而人类计算则是一条通往人类与机器的桥梁。
实例
下面,我们来看一下这篇文章中所举的实例。
1、reCAPTCHA
2007年的时候,Google正在做一个大项目:将美国各大图书馆中的图书全部电子化。在电子化的过程中,有一个关键步骤就是如何将扫描的图书图片自动识别成计算机可以处理的字符,这就是工业界所说的OCR(Optical Character Recognition,光学字符识别)问题。在当时,OCR的识别准确率非常低,仅仅能达到83.5%的水平。在这种准确率水平下,文章读起来会感觉错字连篇。为了提升那剩下的16.5%的准确率,Google需要花费大量的资金雇佣工人劳力来对未识别字符进行修改,这既没有效率,又浪费成本。
于是,Luis von Ahn突发奇想,为什么不将他以前做的CAPTURE项目和这个OCR问题联系起来呢?我们知道,当人们使用电子邮件或者其他的网络应用的时候,会经常要输入验证码,以证明用户是一个真正的人而不是一个电脑程序。CAPTURE程序就是根据特定的算法将已知单词故意扭曲让用户识别。于是,每一分钟,都有成千上万的人浪费在了这个刻意的字符识别任务之中。可是,这样大量的人力事实上都被浪费了啊!就这样,Luis想,我们为什么不让用户直接识别那些OCR软件识别不出来的字符呢?这就是reCAPTURE程序的来源。
在reCAPTURE中,网站给用户的信息将包括两张图。一张图就是CAPTURE程序生成的扭曲的字符,以辨别用户是人而不是程序;另一张图则展示了OCR无法识别的书籍中的字符。如下图所示:
用户需要同时输入这两个词才能通过网站的测试。第一个单词验证这是人而不是程序,第二个单词经过一定的交叉验证程序得到了对可疑字符的识别。交叉验证可以通过3个以上用户输入的字符完全相同来实现。最后,由于Google拥有庞大的注意力资源,当它采用了reCAPTURE程序后,就可以以平均每天160本的速度完成了自动校对的工作,其准确率从原来的83.5%上升到了后来的99.1%。更关键的是,在整个校正过程中,Google没有花一分钱。后来,Luis将这一项目总结为一篇论文在Science上发表。在文章结尾,他感叹道:“‘浪费的人力’是可以被我们利用起来以解决那些计算机很难求解的问题”。
目前,reCAPTURE程序又有了新的识别模式。如下图所示,用户需要从九张较为模糊的照片中选出特定类型的照片出来,比如有路标的照片,有门牌的照片。通过这样的识别方式,极大地借用了人力资源,巧妙的实现了图像识别的目的。
参考文献
Luis von Ahn, Benjamin Maurer, Colin Mcmillen, David Abraham, and Manuel Blum. reCAPTCHA: Human-Based Character Recognition via Web Security Measures. Science, (321)5895:1465-1468, Aug 14, 2008
2、EyeWire
EyeWire是一款游戏,一个玩家进入游戏后就会在一个立方空间中通过拉伸神经元来重构神经元的分支。在右侧,有一个神经元截面的黑白图像。用户将学着沿着一个灰色的一个神经元分枝的轮廓染色,这些分支通畅贯穿整个立方空间。用户的工作可以重构整个神经元,一个分支一个分支地进行。
实际上用户的工作是为了弥补AI程序不能很好完成任务的部分,从而追踪神经元的分支。在交互界面中,三维视图回显示这个神经元在整个体内的延展轨迹,玩家可以通过滚动2维的界面来跟随这个路径。玩家也可以点击切片区域,将他们加上跟踪区域。程序会自动识别出用户点击区域所对应的部分神经元。用户一旦觉得任务岸城,就会接下一个任务。
这个游戏的目的是为了识别出已知的各种视网膜细胞中的特定细胞类型,从而帮助我们了解视觉是如何工作的。
第一个任务时根据二位图像重构三维的视网膜细胞;
第二个目标是识别突出,从而了解两个神经元之间的联系。
最后一个目标是将这些联系与已知的神经元的活动联系起来。
3、MalariaSpot
疟疾是一种常见的感染病,每年都有20亿病例,有62万人死于这个病。通常的疟疾检测方法是通过看血液涂片,并计数图片中的寄生虫个数来诊断。但是,这对于医生来说是一个费力费时的艰巨任务。于是,MalariaSpot开发了一款手机游戏,将大量的血液涂片分布到大量玩家的手机上,通过游戏化的方式让人参与其中,帮助医生来数寄生虫的个数。这可以大大缩短时间,并增加了准确度和趣味性。
参考文献:M.A.Luengo-Oroz,A.Arranz,J.Frean,J.Med.Internet Res. 14, e167 (2012).
4、PolyMath Project
2009年,数学家Timothy Gowers在他的博客上发起了一个不寻常的试验,他试图利用众包的方式完成组合数学中著名的DHJ(the density Hales-Jewett)定理的证明。在当时,数学家们已经找到了一个证明方法,但这个方法冗余而乏味,并不能为人们提供深刻的洞察。于是,Gowers希望通过众包的方式找到全新的证明方法。
在Gowers刚刚发布这个证明邀请的时候,仅仅有少数数学家进行了一些简短的评论。然而,仅仅37天后,这个帖子就有了800个重要评论。就这样,全球各地的数学家们零散地贡献着自己的想法和评论。3个月的时间过去后,Gowers发现PolyMath的参与者们已经找到了一个特例的证明,而这个证明是可以推广到整个定理的。此后不久,就在Gowers他们撰写论文的时候,加州大学的研究生Tim Austin就宣称在PolyMath重要思想的影响下,他自己也独立地找到了另一种新的DHJ定理证明方法。
与以往的数学问题求解不同,PolyMath项目并没事先进行任务分配和层级化管理,而且整个证明全部是公开透明的,这在人类科学历史上还是第一次。也是有史以来第一次利用众包方式求解这么难的问题。
参考文献:T. Gowers and M. Nielsen, Massively collaborative mathematics, Nature, 461(2009), 879-881
5、ePluribus Problem Solver
这是一个问题求解系统,能够基于少量的照片以及公众参与者而生成真实精确的杂志文章。
参考文献:K.Greene,D.Thomsen,P.Michelucci,Secur.Inform.1,12 (2012).
结合计算机的:
6、Crowdcrit
CrowdCrit是一个通过大众的力量来生成艺术作品评论的系统。但是,由于参与公众的水平参差不齐,而且他们大多没有专业艺术领域的相关知识,所以无法生成专业级别的评论。CrowdCrit系统采用的解决方案是根据专业的设计教科书,将评论分成多个步骤,用户在一定的引导线,按照指定的标准来生成决策。因此通过引导,CrowdCrit实现了一种工作流式的评论艺术作品的方案,并且得到了专业级的艺术作品评论。
参考文献:K.Lutheretal.,inProceedingsofthe18thACM Conference on Computer Supported Cooperative Work; Social Computing (Association for Computing Machinery, New York, 2015; http://doi.acm. org/10.1145/2675133.2675283), CSCW ’15, pp. 473–485.
7、Gulf of Mexico oil spill
这是一个利用基于人的遗传算法来寻找墨西哥湾漏油事件中的问题的众包项目。斯蒂芬理工学院的研究人员从土耳其众包市场找来了1853个人参与项目,让他们对可能的漏油问题进行评估,经过三代的进化得到了专家级别的解决方案。如下图所示:
图中的每个点就是一种方案,1,2,3表示不同的进化代际,黄色的店表示的事专家提出来的方案。其中两个坐标轴分别是原创性和实践性。原创性是通过让参与者将某一个方案与另一个参考方案比较,然后给出原创性的成绩。实践性同样的也是根据参与者对与方案的合理化程度进行评估。
参考文献:J.V.Nickerson,Y.Sakamoto,L.Yu,inCHI2011Workshop on Crowdsourcing and Human Computation, M. Bernstein et al., Eds. (Association for Computing Machinery, New York, 2011), pp. 1-4.
8、TurKit toolkit,
“土耳其机器市场”是目前世界最知名的众包平台,你可以出钱来换取人类的解决问题的能力。很多人可以利用这个平台完成一些人类计算和众包的任务,例如给图像加标签,例如翻译文字等等。更值得称赞的是,对于使用者来说,平台的运作完全是一个黑箱,你需要做的只要把任务提交上去,然后出钱,这里面完成众包的人就会自动地帮你完成工作,获取一定的收入。
那么Turkit就是一种尝试,希望能够将人类完成的那部分计算当成一个自函数来调用,如下面这一段代码:
这是一个函数,可以帮助你提供纽约各个值得玩的景点,还可以为你拍好序。而这中间的两个步骤(标黑体)就是通过调用土耳其机器市场的人类来完成的运算。它们需要做的就是寻找纽约的知名景点,并把它们排序。可以设想,我们还可以开发更复杂的程序,将人类计算纳入其中。
这种模块化的设计使得不同的设计者可以相互彼此调用,来完成有人参与的系统设计。
参考文献:G.Little,L.B.Chilton,M.Goldman,R.C.Miller, in Proceedings of the ACM SIGKDD Workshop on Human Computation (Association for Computing Machinery, New York, 2009; http://dl.acm.org/citation. cfm?id=1600159), pp. 29–30.
9、QuikTurkit
这个平台则是上一个平台的实时版本,通过将一些计算结果进行预计算和存储,这样就可以在调用的时候直接使用,而不需要重新运算,从而可以加快速度。
参考文献:W.S.Lasecki,C.Homan,J.P.Bigham,Hum.Comput. 10.15346/hc.v1i1.29 (2014). (http://arxiv.org/pdf/1408.6621v1.pdf)