AI：我又又又打败了人类冠军！小学生：叫爸爸！

2020年10月6日 0条评论 1,660次阅读 0人点赞

看到“双节”期间中国有5.5亿人出行的新闻，我不由得虎躯一震。想到了人会多，但没想到会这么多！看来大家都充满了探索欲，希望在难得的假期去往自己熟悉或未知的地方。

就算你选择了“家里蹲”，也一定会通过网上冲浪、阅读游戏等方式，来探索自己的内心世界。

探索是人类的本能，从婴儿时期开始，好奇心就驱动着我们去探索并理解自己所在的世界， AI的成长则离不开对人类的观察与模仿，其中，就包括探索的能力。

这种能力被算法掌握之后，出现了阿尔法狗打败人类棋圣，也出现了OpenAIFive——在电子游戏领域完虐人类玩家。不过即便如此，人类的探索能力依然令最高级的AI都望尘莫及。

比如婴儿可以从爬行和探索中学会认知三维空间，而一些计算机视觉还总被曝出被平面照片所欺骗过去的新闻，上马更高性能的3D视觉算法则需要耗费巨大的算力资源，从这个角度看，人脑无疑在效果和效率上都碾压了AI。

《AI：我又又又打败了人类冠军！小学生：叫爸爸！》

那么，能不能引入儿童的学习能力，来实现更聪明的AI呢？这个猜测，就像是“把爱因斯坦的大脑给我我也能拿诺贝尔奖”一样，是一个有点铁憨憨，又有点重要的问题。

5岁小孩碾压AI，“玩”就够了

大家不妨在假期做一个生活观察，看看小孩子们是如何探索世界的？

如果一个玩具看起来有很多玩法，但他们不知道哪一个是正确的，小孩子们会进行假设驱动的探索，如果“假设”失败了，他们就会转向新的玩具。

有研究显示，一个11个月大的婴儿，在看到许多违反物理定律的现象时，会忍不住对其进行更多的探索，甚至会做出一些违规行为来实践自己的假设。

比如看到一辆漂浮在空中的汽车，有点颠覆以往的认知了，你会怎么做？婴儿会选择将玩具砰地扔到桌子上，想知道这种“不合常理”的情况是怎么出现的（所以阻止熊孩子弄坏你手办的唯一办法，就是根本不要让他们看到它们）。

《AI：我又又又打败了人类冠军！小学生：叫爸爸！》

这种“不见黄河心不死”式的自由探索，有时会令家长和大人们不堪其扰，但抽象化的“假设”能够让人类做出大量预测，想象出许多新的可能性，不仅是一种极为有意义的学习方式，更是人类创造力的由来。

不过就像小王子觉得枯燥的大人们看不到“蟒蛇肚子里的大象”一样，令人遗憾的是，这种探索能力是幼儿的专长，大部分情况下只存在在5岁以前，这也让他们成为宇宙中最好的学习者。

《AI：我又又又打败了人类冠军！小学生：叫爸爸！》

既然儿童行为如此有参考意义，科学家们自然也想得到。事实上，儿童发展学对AI的进展起到了重要的方向牵引作用。

科学家们曾将好奇心引入神经网络，打造了深度增强学习，通过奖励反馈来鼓励智能体（agent）主动探索和理解环境，更新模型参数。这让AI能够自主获得技能，在电子游戏等需要通用智能的复杂场景中能够做出自己的决策，而不是人类预先通过庞大的标注数据集给定答案。

其他类型的儿童行为亦有价值。前面提到的“不见黄河心不死”的探索，就被化作深度优先搜索策略，DeepMind和加州大学伯克利分校的研究人员，开发了一个3D导航和解谜环境。智能体（agent）沿着特定路径进行探索，如果遇到死胡同，那就回去找到下一条没有探索过的道路，继续前进。

《AI：我又又又打败了人类冠军！小学生：叫爸爸！》

听起来是不是很像小孩子走迷宫的游戏？这能让智能体接触到各种各样的经验，在信息较少的环境中工作；减少对数据量的依存，改变目前算力资源紧张的局面，让许多小数据、少样本的领域（如金融、医疗）也能实现智能化。

将儿童探索行为应用于AI，一切都能变得更好，理想层面上确实如此，但现实总喜欢跟科学家们开玩笑，也算是给人类保留了一个“杀手锏”吧。

AI能力暴涨的当下，人类为什么还能稳坐智慧王座？

需要注意的是，这些类似儿童探索的策略，通常更多被用在训练期间提高代理人的经验值，而不是在决策时支持快速学习和探索。用人话说就是“懂得了许多道理，却不一定能过好这一生”，因为一到关键选择时刻就会掉链子。

就拿前面提到的深度优先搜索（DFS）来说，科学家们发现，如果让孩子们自由探索，那么他们与智能体按DFS做出的行动有90%的相似，而以目标为导向（找到橡皮糖）来探索的话，有96%的路线都是相似的。但不同的是，探索越多的孩子，最后能花费更少的时间完成任务，智能体却相反。

《AI：我又又又打败了人类冠军！小学生：叫爸爸！》

如果智能体发现一个地方很有趣（能得到奖励），就会一直重新访问该区域，直到它终于终于终于觉得那里不再有趣了，这会导致其概括性不佳（无法形成最佳策略）。

其中的差别就在于，孩子不是被动地孤立学习或由目标驱动，而是在不断实验和收集信息，将自己的认知和经验与获得的信息结合起来，编织出一个丰富的世界模型。而即使最复杂的机器探索方法，也只能为特定的目标服务，一时半会还无法完美匹配这个充满了各种“意外”的真实世界。

为什么有了一定的探索能力，AI智能体的表现还是不尽如人意呢？

首当其冲就是实验室与现实环境的巨大不同。

深度强化学习过去都是“机上谈兵”，不是跟人类在二维游戏里PK，就是数字网格里下棋，而儿童的探索则是发生在信息丰富的三维现实世界之中，许多潜在因素很难被应用到实验中。

这也是为什么，当今最强大的AI智能机器人也达不到一个仅小学毕业的优秀人类服务员的工作能力，能像他们一样快速适应环境、完成各种复杂任务。

《AI：我又又又打败了人类冠军！小学生：叫爸爸！》

此外，儿童的发展心理学研究很难在AI产业链中形成“闭环”。要真正激发AI生长出服务现实的能力，不仅要构建出具有更强探索能力的智能体，还要继续学习人类的认知能力，推进人工智能自身的理论创新和软硬件升级（比如搭建三维训练环境），这一系列链式突破，才能最终将技术构想转化为现实生产力。“大力出奇迹”的深度学习，其高光时刻就是这么来的。

沿着这个方向，我们可以进一步了解，怎样才能弥合智能体与人类之间的差距。