近期,清华大学-中国工程院知识智能联合研究中心、中国人工智能学会吴文俊人工智能科学技术奖评选基地联合发布了《2019人工智能发展报告》,遴选了13个人工智能的重点领域,包括深度学习、计算机视觉、语音识别、机器人等热点前沿技术的基础及应用研究、发展动向等。
深度学习让图像、语音等感知类问题取得突破
机器学习是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能。
1950年,阿兰·图灵创造了图灵测试来判定计算机是否智能。图灵测试认为,如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。
后来,IBM科学家亚瑟·塞缪尔开发的跳棋程序,驳倒了普罗维登斯提出的机器无法超越人类的论断,像人类一样写代码和学习的模式,他创造了“机器学习”这一术语。
然而,从20世纪60年代中期到70年代末期,机器学习的发展步伐几乎停滞。无论是理论研究还是计算机硬件限制,整个人工智能领域的发展都遇到了很大的瓶颈,神经网络学习机因理论缺陷也未能达到预期效果而转入低潮。直到伟博斯在神经网络反向传播(BP)算法中具体提出了多层感知机模型,机器学习得以重振,并且直到今天BP算法仍然是神经网络架构的关键因素。
神经网络研究人员相继提出了使用BP算法训练的多参数线性规划的理念,成为后来深度学习的基石。在另一个谱系中,昆兰提出了一种非常出名的机器学习算法,具体地说是ID3算法,这种算法至今仍然活跃在机器学习领域中。
机器学习迎来爆发期是神经网络研究领域领军者Hinton在2006年提出了神经网络Deep Learning算法,使神经网络的能力大大提高。Hinton和他的学生 Salakhutdinov在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。
2015年,为纪念人工智能概念提出60周年,LeCun、Bengio和Hinton推出了深度学习的联合综述。深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示,这些方法在许多方面都带来了显著的改善。深度学习的出现,让图像、语音等感知类问题取得了真正意义上的突破,离实际应用已如此之近,将人工智能推进到一个新时代。
计算机视觉催生出人脸识别、智能视频监控等应用
计算机视觉,顾名思义,是分析、研究让计算机智能化地达到类似人类的双眼“看”的一门研究科学,即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。
计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别、决策等功能。
马尔(David Marr)《视觉》一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。
目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。马尔的计算视觉分为三个层次:计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。
马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算,但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。
20世纪90年代初,计算机视觉从“萧条”走向“繁荣”,主要得益于以下二方面的因素:一方面,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议、考古、虚拟现实、视频监控等;另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。