自古以来,哲学家和科学家都幻想着有朝一日能造出“人工通用智能”(artificial general intelligence)。简单地说,人工通用智能需要有极高的可塑性(flexibility),从而适应(甚至精通)各式不同的任务:一个能下棋、玩游戏、做家务、开飞机的AI。然而在此之前,最好的AI算法也只能精通数个同类任务;会下围棋、将棋和国际象棋的AlphaZero就是一个例子。
任何深度学习算法在面对棋盘时,第一步总是观察。AlphaZero能观察当前棋局(),并直接利用计划未来的棋步。这要多亏了它所知道的棋类规则:它明白做出一个动作(action)后的下一个棋局长什么样,并可以在下一个棋局的基础上继续规划棋路,“想象”并评估各种不同的可能性。这样的规划方式,在深度学习上称为“蒙特卡洛树搜索”(Monte Carlo tree search,MCTS)。MCTS允许算法探索不同的可能性,并从中择出最优的动作。因此,熟知规则的AlphaZero要想精通棋类,只需要一个“神经网络”(neural network),即“预测网络”(prediction network),给输入一个状态,它就能给出这个状态的价值()和潜在策略();通过评估各个可能性,AlphaZero就能得知当前最好的棋步。
事实很残酷:循规蹈矩不是智能。事先熟知规则再精通下棋,与先摸索规则、建立内部模型再精通棋路是全然不同的。前者只能困于“棋”中,后者则能将一套“思考方式”搬到各种任务上。前者的例子包括AlphaGo到AlphaZero的各种棋类AI,后者则包括MuZero和于尔根·施密德胡波(Jürgen Schmidhuber)著名的“循环世界模型”(Recurrent World Model)。