展望前沿技术探索,未来三到五年最有可能出现突破的就是半监督的学习方法。现在深度卷积神经网络很好,但是它有缺点,即依赖于带标签的完备大数据,没有大数据喂食就不可能达到人类水平,但是要获得完备的大数据,需要付出的资源代价太大,很多应用场景甚至得不到,比如把全世界的火车照片都搜集起来,这是不可能的事。我们希望能够做一些小数据、小样本的半监督学习,训练数据不大,但是还能够达到人类水平。我们做过很多实验,人为地去掉一半甚至去掉1/4的标签数据去训练深度卷积神经网络,希望网络能够具有举一反三的能力,通过小样本或小数据的学习同样能够达到人类水平。这方面的研究不管是利用生成式对抗网络,还是与传统统计机器学习方法相结合,或者是与认知计算方法的结合,证明难度都挺大。比如我们看到了土狗的照片,从来没见过藏獒、宠物狗,但通过举一反三就能够识别出来。这靠什么?靠推理。人类不完全是基于特征提取,还靠知识推理获得更强的泛化能力。而现在的深度卷积神经网络是靠多级多层的特征提取,如果特征提取不好,识别结果就不好,就达不到人类水平。总之,特征提取要好就必须要有完备的大数据。但不管怎样,相信具有“特征提取+知识推理”的半监督或者无监督的深度卷积神经网络三到五年会有突破,而且还是基于端到端学习的,其中也会融入先验知识或模型。相对而言,通用人工智能的突破可能需要的时间更长,三到五年能不能突破还是未知,但是意义非常重大。在半监督、无监督深度学习方法突破之后,很多行业应用包括人工智能场景研发都会快速推进。实际应用时我们一般都通过数据迭代、算法迭代向前推进。从这个角度来说,AlphaGo中体现的深度强化学习代表着更大的希望。因为它也是基于深度卷积神经网络的,包括以前用的13层网络,现在用的40层卷积神经网,替代了以前的浅层全连接网络,带来的性能提升是很显著的。为什么深度强化学习更有意义?首先它有决策能力,决策属于认知,这已经不仅仅是感知智能了。其次AlphaGo依赖的仅仅是小数据的监督学习。3000万的6-9段人类职业棋手的棋局,对人类来说已经是大数据了,但对围棋本身的搜索空间来讲则是一个小数据。不管柯洁还是聂卫平,都无法记住3000万个棋局,但19x19的棋盘格上,因每个交叉点存在黑子、白子或无子三种情况,其组合数或搜索空间之巨大,超过了全宇宙的粒子数。对具有如此复杂度的棋局变化,人类的3000万个已知棋局真的就是一个小数据,AlphaGo首先通过深度监督学习,学习人类的3000万个棋局作为基础,相当于站在巨人的肩膀上,然后再利用深度强化学习,通过自我对弈、左右互搏搜索更大的棋局空间,是人类3000万棋局之外的棋局空间,这就使AlphaGo 0下出了很多我们从未见过的棋谱或者棋局。总的来说,深度强化学习有两大好处,它寻找最优策略函数,给出的是决策,跟认知联系起来。第二,它不依赖于大数据。这就是前面说的小数据半监督学习方法。因为在认知层面上进行探索,而且不完全依赖于大数据,因此意义重大,魅力无穷。相信深度强化学习非常有潜力继续向前发展,将大大扩展其垂直应用领域。但是它本身并不是一个通用人工智能。AlphaGo只能下围棋不能同时下中国象棋、国际象棋,因此还只是专注于一个“点”上面的,仍属于弱人工智能。实现通用人工智能,把垂直细分领域变宽或者实现多任务而不是单任务学习,对深度神经网络而言,沿什么样的技术途径往前走现在还未知,但是肯定要与基于学习的符号主义结合起来。通用人工智能现在没有找到很好的线索往前走,原因一是因为神经网络本身是黑箱式的,内部表达不可解析,二是因为传统的卷积神经网络本身不能完成多任务学习。可以考虑跟知识图谱、知识推理等符号主义的方法结合,但必须是在新的起点上,即在已有大数据感知智能的基础上,利用更高粒度的自主学习而非以往的规则设计来进行。另外从神经科学的角度去做也是可能的途径之一。