#百度APP游戏年度票选活动#计算机进化出一条通往人类智能的新道路从生物学中借鉴的神经网络,其能力正在发生深刻的飞跃。神经网络是制造真正智能机器的最佳方式吗?踏脚石原理是一种将创造力注入人工智能年,中佛罗里达大学的计算机科学家肯尼斯·斯坦利正在和他的学生创建的网站Picbreeder,突然一个外星人变成了一辆赛车,改变了他的生活。在Picbreeder上,用户可以看到一组15张类似的图片,由几何形状或漩涡图案组成,所有这些都是同一个主题的变体。有时,有些照片可能像一个真实的物体,像蝴蝶或脸。用户可以选择一张图片,他们通常会点击他们认为最有趣的东西。一旦他们这样做了,一组新的图像将填充屏幕。从这个有趣的探索中,一个充满幻想的设计目录出现了。斯坦利是人工智能领域“神经进化”的先驱,该领域利用生物进化原理来设计更智能的算法。使用Picbreeder,每张图像都是一个类似于神经网络的计算系统的输出。当一个图像生成时,它的底层网络突变为15个稍微不同的变体,每个变体都生成一个新的图像。斯坦利并不打算让Picbreeder产生任何特别的东西。他只是有一种预感,他或公众可能会学到一些关于进化或人工智能的知识。有一天,斯坦利在网站上发现了一张类似外星面孔的东西,并开始进化它,选择了一个孩子和一个孙子等等。碰巧,圆圆的眼睛往下挪了挪,开始像汽车的轮子了。斯坦利也跟着做了,并设计了一辆外观漂亮的跑车。他一直在想这样一个事实:如果他从零开始,而不是从外星人面孔开始,他可能永远也做不到这一点,他想知道这意味着什么,直接解决问题。“这对我的整个人生产生了巨大的影响,”他说。他查看了Picbreeder上出现的其他有趣的图片,追踪了它们的谱系,发现它们几乎都是通过完全不同的方式进化而来的。“我一看到证据,就惊呆了。”Picbreeder(左)生成的异形脸变成了类似斯坦利的认识造就了他所称的“踏脚石原理”,并由此设计出一种更充分地利用生物进化无穷创造力的算法。这种脚踏式原理,就像中国先贤所说的“一生二,二生三,三生万物”,从一个源头开始,创造出无穷无尽的事物。踏脚石原理与生物进化进化算法已经存在很长时间了。传统上,它们被用来解决特定的问题。在每一代中,在某些指标上表现出最好的解决方案,比如控制一个两腿机器人的能力,被选中并产生后代。虽然这些算法已经取得了一些成功,但它们的计算能力可能比深度学习等其他方法更强,深度学习近年来大受欢迎。踏脚石原理超越了传统的进化方法。它不针对特定的目标进行优化,而是对所有可能的解决方案进行创造性的探索。通过这样做,它取得了突破性的成果。不久前,一个基于“踏脚石原理“的系统掌握了两款电子游戏,而这两款游戏却难倒了流行的机器学习方法。在《自然》杂志发表的一篇论文中,人工智能公司DeepMind报告称,该公司成功地将深度学习与多样化解决方案的演变结合起来。DeepMind率先将深度学习用于解决围棋等问题。踏脚石原理的潜力可以用生物进化来类比。在自然界中,生命之树没有包罗万象的目标,用于一个功能的特性可能会发现自己会去做一些完全不同的事情。例如,羽毛可能是为了隔热而进化的,后来才变得便于飞行。生物进化也是产生人类智能的唯一系统,这是许多人工智能研究者的终极梦想。由于生物学的跟踪记录,斯坦利和其他人已经开始相信,如果我们想要的算法能够尽可能轻松地在物理和社会世界中导航,我们需要模仿大自然的战术。他们认为,我们必须让大量的解决方案开花结果,而不是硬编码推理规则,或让计算机学会在特定的性能指标上取得高分。让计算机优先考虑新奇感或兴趣,而不是走路或说话的能力。他们可能会发现一条迂回的道路,一组垫脚石,最终能更好地走路和说话,而不是直接寻求这些技能。从无到有,新奇探索继Picbreeder之后,斯坦利着手证明生物进化原则可以克服人们的争议:“如果我运行一个算法的创意到了这样一种程度,我不确定它会产生什么,这是非常有趣的,但这也难以商业化。”他希望通过简单地沿着有趣的方向跟随想法,算法不仅可以产生多样化的结果,而且可以解决问题。更大胆的是,他的目标是证明完全无视一个目标比追求它会更快地实现目标。他通过一种叫做查新的方法做到了这一点。该系统由一个神经网络开始,它是一种被称为神经元的小计算单元按照层状连接排列。一层神经元的输出通过具有不同“权重”的连接传递到下一层。在一个简单的例子中,输入数据,比如图像,可能被输入到神经网络中。随着来自图像的信息从一层传递到另一层,网络对其内容的提取越来越抽象。最后,最后一层计算最高级别的信息:图像的标签。对于优步人工智能实验室和中佛罗里达大学的计算机科学家肯尼思斯坦利来说,“踏脚石原则”解释了创新。在神经进化中,你首先给层间的权重分配随机值。这种随机性意味着网络不会很好地完成它的工作。但是,从这种令人遗憾的状态中,你可以创建一组随机突变,后代神经网络的权重略有不同,并评估它们的能力。你保留最好的,产生更多的后代,然后重复。更高级的神经进化策略也会在神经元和连接的数量和排列上引入突变。神经进化是一个元算法,一个设计算法的算法。最终,这些算法很好地完成了它们的工作。为了测试踏脚石原理,斯坦利和他的学生JoelLehman调整了选择过程。新颖性的搜索并没有选择那些在一项任务中表现最好的网络,而是根据它们与行为最相似的网络之间的差异来选择它们。在Picbreeder中,人们会奖励有趣的人。在这里,作为兴趣度的代理,新奇搜索将奖励新奇。在一项测试中,他们将虚拟轮式机器人置于迷宫中,并对控制它们的算法进行进化,希望它们能找到出口的路径。他们从零开始进行了40次进化。在一个比较程序中,机器人到出口的距离谁最短,如直线距离,40次中只有3次进化出获胜的机器人。完全不考虑每个机器人离出口有多近的新颖性搜索,成功了39次。它成功了,因为机器人设法避免了死胡同。他们不是面对出口,将头撞在墙上,而是探索不熟悉的领域,找到变通方法,并意外获胜。查新很重要,因为它彻底颠覆了一切,基本上就是问,当我们没有目标时,会发生什么。一旦斯坦利指出追求目标可能会成为实现这些目标的障碍,他就开始寻找将新奇搜索和具体目标结合起来的聪明方法。这促使他和雷曼兄弟创建了一个反映自然进化壁龛的系统。在这种方法中,算法只与与它们相似的其他算法竞争。就像蠕虫不会与鲸鱼竞争一样,该系统维护着不同的算法利基,从中可以产生各种有前途的方法。这种具有局部竞争的进化算法在处理像素、控制机器人手臂以及帮助一个失去肢体的六足机器人快速适应其步态方面表现得很熟练,就像动物一样。这些算法的一个关键要素是它们培育了踏脚石。他们不是不断地优先考虑一个整体的最佳解决方案,而是维护一个多样化的充满活力的小众市场,其中任何一个都可以成为赢家。最好的解决方案可能来自于在不同的利基之间跳跃的谱系。进化到赢对于目前在优步人工智能实验室工作的斯坦利来说,“踏脚石原则”解释了创新,如果你带着一台现代电脑回到过去,告诉人们放弃真空管,专注于笔记本电脑,我们就什么都没有了。这也解释了进化,我们是由扁虫进化而来的,扁虫不是特别聪明,但却有两侧对称的特征。目前还完全不清楚左右对称的发现是否与智力有关,更不用说与莎士比亚有关了,但确实如此。神经进化本身在过去十年中走了一条出乎意料的迂回之路。很长一段时间以来,它一直生活在其他形式的人工智能的阴影下。据德克萨斯大学奥斯汀分校的计算机科学家说,它最大的缺点之一就是计算量大。在传统的机器学习中,当你训练一个神经网络时,它会逐渐变得越来越好。在神经进化中,权值是随机变化的,因此网络的性能可能在改进之前就会下降。另一个缺点是,大多数人都有自己想要解决的问题。一个优化兴趣度的搜索策略可能会让你找到解决这个问题的创造性方法。但它可能会让你在走上正路之前就误入歧途。然而,没有什么策略是完美的。在过去五年左右的时间里,人工智能研究的不同领域,如深度学习和强化学习,出现了爆炸式的增长。在强化学习中,算法与环境相互作用,一个机器人在现实世界中导航,或者一个玩家在游戏中竞争,并通过反复试验来学习哪些行为会导致预期的结果。深度强化学习被DeepMind用来创建一个程序,它可以在围棋上打败世界上最好的棋手,许多人认为这一壮举还需要几年或几十年的时间。但是强化学习可能会陷入困境。稀疏或不频繁的奖励不能给算法足够的反馈,使它们能够朝着目标前进。欺骗性的奖励对阻碍长期进步的短期收益进行奖励会让算法陷入死胡同。因此,尽管强化学习可以在众多游戏中得分频繁,一些目标明确的游戏可以打败人类,但它们在其他缺乏这些功能的经典游戏中却一败下地。在过去的一年里,基于踏脚石原理的人工智能终于成功地解决了该领域长期存在的一些挑战。《蒙特祖玛的复仇》)奖励了开放式探索在游戏《蒙特祖玛的复仇》中,巴拿马乔在地下迷宫中从一个房间导航到另一个房间,收集打开门的钥匙,同时避开敌人和蛇、火坑等障碍物。为了打破这个游戏,研究人员开发了一个系统,基本上可以让游戏四处闲逛,随机尝试各种动作。每一次他到达一个新的游戏状态,例如一个新的位置和一套新的财产,他把它归档到他的记忆中,连同他所采取的一系列行动。如果他后来找到一条更快的路径到达那个状态,它就会取代旧的内存。在训练期间,巴拿马乔反复挑选其中一个存储状态,随机地探索一段时间,并将他发现的任何新状态添加到他的记忆中。最终,其中一个状态就是赢得比赛的状态。巴拿马乔在他的记忆中有他所采取的所有行动。他没有使用神经网络或强化学习,没有收集钥匙或接近迷宫尽头的奖励,只是随机探索和收集并连接踏脚石的聪明方法。这种方法不仅击败了最好的算法,还打破了人类的游戏世界纪录。同样的技术,也就是研究人员所说的《去探索》,曾被用于在陷阱上击败人类专家!在这个游戏中,陷阱哈利在丛林中寻找宝藏,同时避开鳄鱼和流沙。没有其它机器学习人工智能的得分高于零。年1月,研究团队展示了AlphaStar,这款软件可以在复杂的电子游戏《星际争霸2》中击败顶级专业人士。AlphaStar进化出了一群互相竞争、互相学习的玩家。升级版的AlphaStar在一个热门游戏平台上排名前0.2%的活跃玩家中名列前茅,成为第一个不受任何限制地登上热门电子竞技游戏顶层的人工智能。开放式的发现可能是实现类人人工智能的最快方式。设计人工智能的人工智能到目前为止讨论的所有算法在创造力方面都是有限的。AlphaStar只能想出新的星际争霸2战略。新颖性搜索一次只能在一个领域内找到新颖性,例如解决迷宫或行走机器人。另一方面,生物进化产生了无穷无尽的新奇事物。我们有细菌、海带、鸟类和人类。这是因为解决方案在进化,但问题也在进化,例如长颈鹿是对树木问题的回应。人类的创新也是如此。我们给自己制造麻烦,我们能把人送上月球吗?然后解决它们。进化算法却不能给自己制造麻烦,无法自我创造新的领域。数十年的研究告诉我们,这些算法不断地让我们感到惊讶,并胜过我们。为了反映这种问题与解决方案之间的开放式对话,研究团队发布了一个名为POET的算法,用于配对开放式开拓者。为了测试这个算法,他们进化了一群虚拟的两腿机器人。它们还为机器人进化出了一群障碍训练场,包括山丘、战壕和树桩。这些机器人有时会交换位置,尝试新的地形。例如,一个机器人学会了拖着它的膝盖穿越平坦的地形。然后它被随机转移到一个有短树桩的地方,在那里它必须学会直立行走。当它回到它的第一个障碍训练场时,它完成得更快了。一个间接的途径允许它通过从一个难题中学习技能来提高将它们应用于另一个。诗人有可能设计出新的艺术形式,或者通过为自己发明新的挑战然后解决它们来进行科学发现。它甚至可以走得更远,这取决于它建立世界的能力。斯坦利说,他希望建立的算法在10亿年之后仍然可以做一些有趣的事情。斯坦利说,进化发明了视觉,发明了光合作用,发明了人类级别的智能,它发明了所有的一切,所有的一切都是在一个算法的运行过程中完成的。捕捉到这一过程中哪怕是一丁点的变化,都是非常强大的。有人认为开放式的发现可能是通向人工智能的最快路径,这样机器几乎具备人类所有的能力。人工智能领域的大部分研究都集中在人工设计智能机器的所有构件上,比如不同类型的神经网络架构和学习过程。但目前还不清楚这些信息如何最终整合成一种通用智能。相反,也有人认为应该更多地